Updated: Thursday, 31/03/05

言語工学部門で利用可能な設備・資料・ツール一覧(まだ作成途中です)

所在地:言語文化研究科・旧館3階307室(言語情報処理システム端末室)および313室(田畑研究室)

計算機: PowerMac G5 2.5GHz Dual x 1; PowerMac G5 2GHz Dual x 2 (一台はMac OS X Server 10.3.8搭載のLDAP認証・ファイルサーバ、もう一台はNetBootサーバ). クライアント機はPowerMac G5 1.6GHz Single x 2; iMac G5 17" 1.6GHz x 5; PowerMac G4 (400MHz  ̄ 1.25GHz Dual) x 5; iMac 15" 1GHz x 3; Mac mini 1.42GHz x 5。クライアント機は全てMac OS X 10.3.8(2005年3月)でNetBoot(ネットワークイメージによる起動)、XserveG5サーバでLDAPv3によるユーザ認証を行う稼働形態を取っている。他に、BNC SARA serverおよびBNCweb serverとしてTurboLinux搭載のIntel CPUワークステイションが、また自動品詞タグ付けシステムのCLAWS4およびLT-CHUNK用サーバ機としてSun Ultra 10 (Solaris 8)がそれぞれ稼働している。クライアント側ではOffice 2004 for Mac, iWork 2005, Adobe Creative Suite, Text Wrangler, Speed Search, DeltaGraph Pro 5.5, 統計解析言語環境RなどMac OS用アプリケーションの他、X11, Tex環境, chasen等の形態素解析ツール、検索エンジンnamazu, MySQL, 自動品詞タガー(Brill Tagger)などのUNIXツール実行環境、BNC, ICAME Corpus Collection 2他の電子化言語資料が利用可能になっている。

高性能ブックスキャナー:MINOLTA EPCWIN 7000 。書籍入力に適した湾曲や文字のゆがみを自動的に補正。高度なネットワーク融合を果たし、接続したPCから、撮影したデータのメール送信やFTPサーバへのアップロードが可能。またWebサーバ機能を持っているので撮影した画像データをLAN内から閲覧する事も可能( コニカミノルタによる製品解説 http://konicaminolta.jp/products/business/micrographics/epicwin.html)。テキストデータの電子化(光学式自動文字認識/Optical Character Recognition)に使用。

画像左から:言語工学部門言語情報処理システム端末室 (307室); 室内の端末 (iMac & PowerMac G4, etc.); MINOLTAブックスキャナーとサーバ機のPowerMac G5; BNCweb検索画面。それぞれクリックすると拡大画像を見ることができます。

 

言語文化部棟3階307室(言語情報処理システム端末室)では上述サーバ計算機の共有ディレクトリ上に各種コーパスを配置しており,各端末からコーパスの閲覧や語彙頻度検索ができるようになっている。以下,言語工学部門所蔵の電子コーパスを紹介する。

Balanced corpus

BNC: British National Corpus

BNC sampler

 

Written English

ACE: Australian Corpus of English (written)

Brown1: Brown Corpus, format 1 (written) cf. Brown Corpus Manual

Brown2: Brown Corpus, format 2 (written)

Browntag: Brown Corpus, tagged version (written)

FLOB: Freiburg-LOB Corpus of British English (written)

Frown: Freiburg-Brown Corpus of American English (written)

ICE_EA: International Corpus of English, East-African component (written part)

Kolhapur: Kolhapur Corpus of Indian English (written)

LOB: Lancaster-Oslo/Bergen Corpus (written)

LOBTAG: Lancaster-Oslo/Bergen Corpus, tagged version (written)

WC: Wellington Corpus of Written New Zealand English

 

Spoken English

COLT: Corpus of London Teenage Language (spoken)

LLC: London-Lund Corpus (spoken)

POW: Polytechnic of Wales Corpus (spoken)

SEC: Lancaster/IBM Spoken English Corpus

WSC: Wellington Corpus of Spoken New Zealand English

ICE_EA: International Corpus of English, East-African component (spoken part)

 

Historical English

CEECS: Corpus of Early English Correspondence Sampler (written)

Helsinki: Helsinki Corpus of English Texts, Diachronic part (written)

Innsbruc: Innsbruck Computer-Archive of Machine-Readable English Texts (ICAMET)

Lampeter: Lampeter Corpus of Early Modern English Tracts (written)

Newdigat: Newdigate Newsletters (written)

Old_Scot: Helsinki Corpus of Older Scots (written)

 

Parsed corpora

Lancaster Parsed Corpus

POW: Polytechnic of Wales Corpus (spoken)

 

Electronic texts/E-texts/電子テキスト

The Complete Works of Jane Austen TEI準拠のアノテーションが施された Jane Austenの全集 。各登場人物ごとに発話部分にタグが付与されており,文体研究に最適化されていると言える。John Burrowsの編集による。

The Poetical Works of Samuel-Taylor Coleridge

The Eighteenth Century Fiction

American Poetry Full-text Database

The Dickens Corpus 筆者が編纂したDickensの電子テキスト集。Brill taggerを用いた品詞タグ付けがされた初版を改訂するために,CLAWS4を用いてC7タグセットを埋め込んだ"G2" (Generation 2)を開発中。

A Corpus of Late Modern English (under construction)

 

The University of ZurichのSebastian Hoffmann, P. Schneider, H. Lehmann らによって開発された(実際には開発のほとんどをHoffmannが行ったようであるが)BNCwebはウェブ・インターフェイス上でBNCの検索を可能にする画期的ツールである。Standard query, Sort, Collocation, Collocation statistics (Mutual Information "MI" score, MI3, Z-score, Observed/Expected, Log-likelihood), Thin, Distribution, Tag-sequence search, Downloadなどの機能を装備している。とりわけ,使用域(Written/Spoken;Text domain)や,David Leeによる細分化されたテクストジャンル毎の頻度分布一覧,さらに話者・書き手の年齢,性別,社会階層などのパラミター毎に語句や表現の頻度分布を表示するDistribution機能は大変重宝する。社会言語学的観点からの分析にも極めて有益な機能を備えていると言える。初心者向けBNCweb利用ガイドはこちら> BNCweb: Getting started (言語文化部内からのアクセスに限定)。

BNCwebは基本的にはhttpサーバ,SARAサーバ,それにMySQL間でコマンドやデータのやり取りを行うCGIスクリプト群であり,そのインストールには,SARAサーバと同じく,UNIX系OS搭載のサーバ計算機およびその計算機の管理者権限が必要だが,クライアント・ユーザの側ではウェブ・ブラウザを介してBNCにアクセス出来ることになるので,ブラウザさえ搭載してあればOSを問わない点も大きな特長である。言語工学部門では2002年度より,Linux機,およびMac OS X搭載機の一部をBNCwebサーバとして稼働させている。(なお,Mac OS X搭載機へのBNCwebのインストールについては,BNCwebのインストールマニュアルに例示されているLinuxの場合と若干手順が異なる。詳細は後日,当ウェブサイトに掲載することにする。)

 

Eric Brill's Rule-Based Tagger (a.k.a. "Brill Tagger")

自然言語処理の世界でよく利用されているタグ付けプログラム。ほとんどのUNIX系OSでコンパイル・動作可能である。Solaris (SPARC/Intel), Linux, FreeBSD, MacOS X等のOSで動作確認済み。Brill Taggerのコンパイルは通常,(tarコマンドによる)解凍後自動的に作成されるディレクトリに移動し,makeコマンドを実行するだけである。(*ただし,Mac OS XのDarwin環境でコンパイルする際には,ヘッダーファイルmalloc.hの配置箇所(/usr/include/malloc/malloc.hなど)を確認し,Makefileが入っているディレクトリにシンボリック・リンクを張っておく必要がある。)Brill Taggerの実行はBin_and_dataというディレクトリに移動して,次のようなコマンドをタイプする:
tagger LEXICON YOUR-CORPUS BIGRAMS LEXICALRULEFULE CONTEXTUALRULEFILE
(YOUR-CORPUSのところにはタグ付けを行うテキストファイルの名前を入力する)
このTaggerを実行する場合,最低限注意すべき点は次の2点である:
(1) 入力テキストはあらかじめ‘Tokenization’ を行っておく必要があること(テキスト中の各単語,句読点,引用符等すべて両側にスペースを空ける)。
(e.g.) “Do you think it did Edward harm, Clara?”
  => “ Do you think it did Edward harm , Clara ? “

(2) 1行1センテンスの配置にすること.
これらを怠るとタグ付けの精度が大きく低下してしまう.

タグはデフォルトではPenn Treebankタグセットを使用している。タグセットの他,語彙品詞辞書(Lexicon),Contextual-rule fileなどをカスタマイズすることも可能。精度はテキストのレジスターにもよるがおおむね96 ̄97%。

CLAWS4: Constituent Likelihood Autmatic Word-tagging System (by UCREL, University of Lancaster)

Lancaster大学のチームが開発したタグ付けプログラムであり,BNCのタグ付けにも利用された。SPARC版Solarisでのみ動作する。言語工学部門では平成12年にComputing Department, Lancasterからライセンスを取得した。実行条件は非常にシンプルで,テキストの始めと終わりを<text> ... </text>というタグで囲むだけで,Tokenizationの必要はない。SGMLでマークアップしたテキストも使用可能。品詞タグは非常に細分化されており,137種類にのぼる(C7タグセット使用時)。精度は細分化されたタグを使用しているにもかかわらず96 ̄98%と非常に高い。ただし,トレーニング(カスタマイズ)不可能(辞書,文脈規則,形態素規則辞書)。CLAWSを使用するにはSolaris搭載サーバのユーザアカウント申請が必要。詳細は筆者まで。

LT-POS

Tosca/LOB Tagger

Qtag

 

LT-CHUNK

 

コーパスから抽出された言語データを解析するために統計学を援用。特にコレスポンデンス(対応)分析(CA, ANACOR)・主成分分析(PCA, princomp)など,多変量解析を行うためのパッケージや統計処理言語環境を準備している。

統計解析言語 R(統計解析言語環境)

オープンソースで国際共同開発されている統計処理環境。UNIXはもちろん,Mac OS X, Windows用のポートも用意されている。統計処理言語Sのいわばクローン的存在であり,S言語(およびS-plus)とコマンドの互換性が高く,S言語用に書かれたスクリプトがそのまま(もしく多少の手直しだけで)利用できる。基本パッケージにさまざまなライブラリを追加することで,広範な関数を利用できるようになるなど,機能的にもSPSSやSAS等市販の統計解析パッケージに匹敵する。Rの普及で(少なくともアカデミックユーザにとっては)SPSSの存在意義はもはや無くなったと言える。307室のPowerMac G5/PowerMac G4/iMacすべてに,R (Version 2.0.1)がインストールされ利用できるようになっている。cf. http://cran.r-project.org/

英語コーパス学会第24回大会ワークショップ「コーパス言語学のための多変量解析入門」で使用した資料および資料付録(統計解析言語Rで行う多変量解析:コマンド集)

Le Progiciel R

多変量解析専用パッケージ。名前だけから判断すると,上記のRのポートのように思えるが,全く別のプロジェクトで開発されたソフトウェア。分析オプションの豊富さ,そしてメモリーさえ十分に搭載していればいかなるサイズのデータも処理可能である点で,SPSSなどの商用パッケージを凌駕するアプリケーションである。現在はMac OSクラシック環境でのみ動作するが,Mac OS X 版およびWindows版が開発中とのこと。多変量解析のコマンドはもちろん,データ・マトリックスの転置(transpose),規準化 (standardise)が簡単に素早く行えるなど非常に重宝する機能を備えている。

MINITAB

今ではマイナーな位置づけになったが,かつては大きな利用シェアを誇っていた。基本的統計解析のツールの他,多変量解析の多くもサポート。ただし,使用できる変数の数に制限があるため,あまり巨大なデータ・マトリクスは扱えない。307室のMac OS X機で利用できるが,Classic環境でのみ動作する。

SPSS

Base packageの他,Professional Statistics, Tables, Categoriesなどのモジュールがあるが,Rの項で書いた通り,もうお役御免である。

OmniPage Pro X

上記ブックスキャナーでPDFまたはTIFFファイルとして保存した画像データを読み込み文字認識を行う。認識精度は一級品。

 

 

Fig. 1

 

* This website is optimised for Safari 1.2 on Mac OS X 10.3 "Panther". Fonts used in this page are: Gill Sans, Times New Roman, and ヒラギノ角ゴシック.

Copyright © 1996-2004 by Tomoji Tabata. All Rights Reserved.