全文検索エンジン「Ludia」を無償公開

NTTデータ全文検索エンジン「Ludia」をオープンソースとして無償公開したそうです。

全文検索エンジンといえば、Namazuだとか他にもいくつかあるのですが、Ludiaはどうなんでしょうね。sourceforge.jpにあるプロジェクトを紹介しておきます。

機能は以下の通りだそうです。ちょっと実際に使ってみないとどういうことができるのかわからないですね。


Ludia 0.8.0 では以下の機能が提供されています。

  • データベース内の日本語テキストデータに対して、高速かつ高精度な全文検索を行うことができます。
  • インデックス構築の際に、日本語の分かち書き方式(形態素解析または2-gram)を選択することができます。
  • SQL関数で検索スコアを取得し、フィルタ条件やソート条件として利用することができます。

また、LudiaはPostgreSQLのインデックス機能として実装されているため、以下のような利点があります。

  • テーブルを更新すると全文検索インデックスの内容も更新されます。
  • LIKE文を使用した場合と同様に、シンプルなSQL文で全文検索を行うことができます。
  • 関数インデックス機能などにより、柔軟に利用することができます。
  • B-Treeなど、他のインデックスと組み合わせた効率的な検索を行うことができます。

【追記】

あれから全然調べられていないんですが、sennaだとMySQLバインディングをするのですが、それがPostgreSQLバインディングになっただけっぽいですね。sennaMeCabと依存するパッケージもあるみたいですね。

あとITProの記事よりもこっちの方にも記事が書かれています。sennaってタワーレコードはてなでも採用されていたのですね。へぇー。

有限会社未来検索ブラジルといえば、実は以前に名前を知ってGoogleで検索したところ、ちょっとなぁといった印象を持っていたのですが、同じような印象を持ってる方もいらっしゃるようです。