gemini Homepage

mail address
Copyright (C) 2001-2002, SATO Lab.


gemini チュートリアル


お知らせ

  1. gemini 2.0 をリリースしました。しかし、現段階では、まだドキュメントなどが不足しています。今後の開発で拡充していきます。
  2. 現在、gemini をインストールして扱うためにはいろいろな知識が必要になっています。初心者にはかなり高いハードルだと思われますので、インストール方法から簡単に利用する方法までを示すチュートリアルのページを作りました。(1.x のみ対応です)

gemini のダウンロード

更新履歴 (history.txt)

gemini 1.3.4 にはバグが発見されています。
複雑な括弧付けの文を渡さなければ使用できるはずです。

gemini 2.0 (2003/1/15)
ダウンロード (gemini-2.0.zip, 183KB) for Windows (CR/LF)
ダウンロード (gemini-2.0.tar.bz2, 120KB) for UNIX (LF)
ダウンロード (gemini-2.0.tar.gz, 164KB) for UNIX (LF)
gemini 1.3.4 (2002/4/8)
ダウンロード (gemini-1.3.4.zip, 90.9KB) for Windows (CR/LF)
ダウンロード (gemini-1.3.4.tar.bz2, 57.9KB) for UNIX (LF)
gemini 1.2.1 (2002/2/8)
ダウンロード (gemini-1.2.1.zip, 92.6KB) for Windows (CR/LF)
ダウンロード (gemini-1.2.1.tar.bz2, 62.4KB) for UNIX (LF)
gemini 1.1 (2002/1/30)
ダウンロード (gemini-1.1.zip, 78.4KB)

gemini 使用上の注意
gemini はフリーソフトです。
なお、gemini を使って発生した障害や事故に関して、佐藤研究室は一切の責任を負いかねます。使用する際は自己責任でお願いします。
また、β版は開発中のスナップショットに近い状態のものとなりますので、まったく安定していません。なるべく正式公開版を使うよう、お願いします。

gemini とは

gemini (Graphical EM Implementation of Natural language processIng) は、グラフィカル EM アルゴリズムを使った PCFG パラメータの学習プログラムです。Inside-Outside アルゴリズムよりも高速なグラフィカル EM アルゴリズムによって、これまで扱うのが現実的でなかった大規模な文法に対してもパラメータ学習を行うことが可能になります。

gemini は主に以下のプログラムによって構成されます。

これらの他に、コーパス操作やデータ解析の補助に使われるスクリプトも含まれます。

現在、以下の機能が実装されています。

  1. Earley パーザによる CFG での構文解析
  2. 構文解析結果から支持グラフへの変換
  3. gEM と支持グラフによる PCFG パラメータ学習
  4. Stolcke のアルゴリズムによる PCFG パラメータ学習
  5. コーパス操作のユーティリティ
  6. 文法操作のユーティリティ
  7. PCFG による構文木予測 (1.3 以降)
  8. 予測精度の測定 (1.3 以降)

gemini を使用するためには、オブジェクト指向スクリプト言語 Ruby のインタプリタが必要になります。また、C 言語で書かれた拡張モジュールをコンパイルするために gcc と GNU make が必要になります。

現在、以下の環境で動作確認 (gemini-2.0) が行われています。

改行コードの扱いにより、環境によってはコンパイルなどできない場合があ るかもしれません。そのような場合は、お使いのOS を明記の上、
mail address
までお知らせください。


gemini のインストール

 まずは、圧縮されたアーカイブを展開します。

    $ unzip gemini-*

次に、作成された gemini ディレクトリで拡張モジュールのコンパイルを行います。

    $ cd gemini
    $ make

これで準備は完了です。
 具体的な使い方に関しては、チュートリアルのページを参照するようにお願いします。


佐藤研究室ホームページ東京工業大学ホームページ