[English | Japanese]

NMZ.* ファイルの仕様

NMZ.i

単語検索用のインデックスファイル (転置ファイル, inverted ファイル)

構造

単語毎に、[その単語を含む文書 ID][スコア]を並べて「レコード」を作る。その長さは可変になるので、先頭に、そのデータ長を記録する。


    [単語1用 データ長][文書ID][スコア][文書ID][スコア]...
    [単語2用 データ長][文書ID][スコア][文書ID][スコア]...
    [単語3用 データ長][文書ID][スコア][文書ID][スコア]...
       :

注意点

文書IDは小さい順に並ぶ --重要
文書IDは差分だけを記録する。
例: 1, 5, 29, 34 -> 1, 4, 24, 5
データはすべて pack 'w' で保存される (BER圧縮)

NMZ.w

単語の一覧表

構造

単なる行指向のテキスト。昇順に並ぶ。行番号をもとに NMZ.ii をseekできる。 (行番号 = 単語ID)

注意点

単語の並びは昇順
正規表現/中間/後方一致はこのファイル全体を grep する。
JIS X 0208の文字はEUC-JPで記録される

NMZ.r

インデックスに登録されているファイルのリスト

構造

インデックスに登録されている文書ファイルを一行にひとつづつ記録している。ただし、 '# ' からはじまる行はインデックスから削除されたファイルを意味する。 '## ' からはじまる行はコメント。例:


    /home/foo/bar1.html
    /home/foo/bar2.html
    /home/foo/bar3.html
    ## indexed: Sun, 08 Jan 2006 02:28:00 +0900
    (空行)
    # /home/foo/bar1.html
    ## deleted: Sun, 08 Jan 1998 12:34:56 +0900

2つの単語を 16bitのハッシュ値に変換して記録する。フレイズ検索の際にはあらかじめフレイズを構成する各単語を ANDで検索し、その後で NMZ.p を参照して語の順序を確認する。ただし、2単語づつの順序しか記録していないのでたとえば "foo bar baz" で検索すると "foo bar" と "bar baz" を含む文書もヒットしてしまう。また、ハッシュ値の衝突により不適当な文書がヒットすることもある。欠点はあるもののそれなりに機能する。

構造


                 |←                     データバイト数1                      →|
[データバイト数1][ハッシュ値\x0000を含む文書ID 1][ハッシュ値\x0000を含む文書ID 2]...
                 |←                     データバイト数2                      →|
[データバイト数2][ハッシュ値\x0001を含む文書ID 1][ハッシュ値\x0001を含む文書ID 2]...
...
[データバイト数n][ハッシュ値\xffffを含む文書ID 1]...

注意点

文書IDは小さい順に並ぶ --重要
文書IDは差分だけを記録する。
例: 1, 5, 29, 34 -> 1, 4, 24, 5
データはすべて pack 'w' で保存される (BER圧縮)

NMZ.pi

フレイズ検索用のインデックスのインデックス

構造


    [NMZ.p中の\x0000の位置][NMZ.p中の\x0001の位置] ...
    [NMZ.p中の\xffffの位置]

注意点

すべてバイナリデータ (pack 'N')
常に 256 Kb

NMZ.t

文書のタイムスタンプ、欠番の情報を記録

解説

ファイルのタイムスタンプを 32bitで記録する。検索結果の日付順のソートに利用される。また、値が -1 のときはその文書は欠番とみなされる。

構造


    [文書ID1のタイムスタンプ][文書ID2のタイムスタンプ]...

注意点

すべてバイナリデータ (pack 'N')
2038年問題を抱えている

NMZ.field.{subject,from,date,message-id,...}

フィールド情報を記録するファイル

解説

フィールド指定の検索に使われる。構造は単なる行単位のテキスト。正規表現のエンジンに読まれる。行番号をそのまま文書IDとして使える。検索結果を表示する際にも用いられる。

構造

単なる行指向のテキスト。(行番号 = 文書ID)

注意点

単なる行指向のテキストなのでエディタなどで書き換えてもいい。ただし、その際は必ず rfnmz で NMZ.field.{subject,from,date,message-id,...}.i ファイルを再構築すること。

NMZ.field.{subject,from,date,message-id,...}.i

NMZ.field.{subject,from,date,message-id,...} の seek 用インデックス

構造


    [文書ID1のフィールドの位置][文書ID2のフィールドの位置]...

注意点

すべてバイナリデータ
すべてバイナリデータ (pack 'N')

NMZ.access

アクセスを制限するための設定ファイル

構造

IPアドレス・ホスト名・ドメイン名によるアクセス制限を行う。 deny でアクセスを許可しないホストを、 allow でアクセスを許可するホストを指定する。IP アドレスを指定したときは前方一致で評価され、ホスト名・ドメイン名で指定したときは後方一致で評価される。all は「すべてのホスト」を表す。設定は上から順に評価される。例:


    deny all
    allow localhost
    allow 123.123.123.
    allow .foobar.jp

この例では、 localhost または IPアドレスが 123.123.123. から始まるホスト、または .foobar.jp ドメインに属するホストからのみのアクセスを許可する。それ以外のホストからのアクセスは拒否する。

Webサーヴァが Apache の場合、ホスト名・ドメイン名によるアクセス制限を行うには、 httpd.conf に


    HostnameLookups On

の設定が必要。

NMZ.status

インデックスを更新するために必要なデータを保存する。

NMZ.result

検索結果の書式を指定するファイル

解説

${フィールドの名前} の部分はそのフィールドの内容に置き換えられる。つまり、 ${title} なら NMZ.field.title の内容に置き換わる。${namazu::counter}, ${namazu::score} は特別な意味を持つ。それぞれ、検索結果の番号、スコアに置き換わる。

標準では NMZ.result.normal と NMZ.result.shortが用意されている。利用者は自由に NMZ.result.* を作成できる。

注意点

書き込み時にロックを行っていない

Namazu Homepage

$Id: nmz.html.ja,v 1.19 2006/10/21 06:26:08 opengl2772 Exp $

developers@namazu.org

NMZ.* ファイルの仕様

目次

構造

注意点

構造

注意点

構造

注意点

構造

注意点

構造

解説

構造

注意点

構造

注意点

解説

構造

注意点

解説

構造

注意点

構造

注意点

構造

解説

注意点