NTCIR

NII Testbeds and Community for Information access Research
  • NTCIR Official site
  • カンファレンス
  • オーガナイザ情報
  • データ
  • 重要な日程
 
データ
 
利用手続き・覚書
テストコレクション提出結果アーカイブツール利用手続き・覚書テストコレクション詳細一覧

下記はNTCIRで構築し、使用したテストコレクション(実験用データセット)です。研究目的での利用に限り使用可能です(但し、一部の文書データはNIIからの配布を行っていません。お申し込み前に各テストコレクションの説明文をご確認ください)。

なおテストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで使用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが求められます。覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してください。

またテストコレクション使用者は、「研究活動報告書」の提出と「発表論文報告」をしてください。
研究活動報告書」は、年度毎に、E-mailで、 ntc-secretariat宛 に送付してください。
発表論文」の報告は、「NTCIR関連発表論文報告ページ」をご参照の上ntc-bib宛 に送付してください。

申込み方法

テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

  • まず、「テストコレクション利用申込書」を、E-mailで、ntc-secretariat宛 に送付して下さい。→記入方法
  • テストコレクションの種類に応じて、テストコレクションの利用許諾に関する「覚書」か「利用申請書」のいずれか一方が必要です
    郵送にて、下記の住所に送付して下さい。
    • 覚書
      必要なテストコレクションの「覚書」を、各テストコレクションにつき2部、かならず両面印刷で出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。
      NII側の押印後、テストコレクションの利用許諾を示すものとして1部を使用申込み者にお送りし、1部をNIIで保管します。→記入方法
    • 利用申請書
      1部で複数のテストコレクションの利用を申請することができます。
      「利用申請書」を1部出力し、必要事項を記入し、署名または押印をして、以下の送付先に郵送してください。NIIで審査後,利用承認書をお送りします。
  • 注)文書を各自で外部機関から入手し、NIIから課題データのみ使用許諾する場合は「利用申請書」の提出、文書を含むテストコレクション・データの利用をNIIから使用許諾する場合は「覚書」の提出となります。
データの利用中止

データの利用中止を希望される場合は、E-mailでntc-secretariatまでご連絡ください。その後、すべてのデータおよび当該データから作成された二次的データを削除の上、その「証明書」を1部出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。→「データ利用許諾解除とデータの削除について

「覚書」「利用申請書」「データ削除証明書」送付先

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室) 宛

Phone: 03-4212-2750
FAX: 03-4212-2751

メーリングリスト

新しいテストコレクションの公開等は、NTCIRより e-mail にてお知らせします。
ご関心のあるかたは、NTCIR mailing list(「NTCIR一般メイリングリスト」) にご登録ください。

(現在進行中のNTCIR ワークショップについては、NTCIR-Workshopをごらん下さい。) 


研究目的使用が可能なテストコレクション

  • NTCIR-1
    NTCIR-1(情報検索/用語抽出研究用テストコレクション)
    [ テストコレクション詳細一覧 ]
    情報検索用テストコレクションとして、文書データ(学会発表データベース著者抄録(1988-1997)=国内65学会の発表論文著者抄録約33万件。半数以上は日英対訳)、検索課題83件(日本語)、正解判定を含みます。日本語検索、日->英の言語横断検索、日->日本語+英語の検索の実験に使用できます。用語抽出研究用コレクションとして、情報検索用テストコレクションから抽出した日本語文書データ2000件に言語グを付加したものを含みます。テストコレクション全体をNIIから研究目的で提供します。
    テストコレクション利用申込書
    テストコレクション使用許諾に関する覚書
    ・NTCIR-1のCD-ROMのREADME [ PDF] [ txt:EUC]
  • NTCIR-2
    NTCIR-2(情報検索用テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(学会発表データベース著者抄録(1997-1999), 研究費成果報告書(1986-1997) = 計日本語約40万件、英語13万件)、検索課題49件(日英)、正解判定を含みます。テストコレクション全体をNIIから研究目的で提供します。検索実験では、NTCIR-1の文書データと合わせて使用します。成果判定はNTCIR-1,NTCIR-2の文書をあわせた正解文書のリストです。NTCIR-1の文書IDの形式をCD-ROMに含まれるスクリプトで変換する必要があります。また、NTCIR-2では、文書データ全体をNTCIR-2開催時点で標準的だとオーガナイザが判断した語分割ソフトウェアで語(短単位、長単位)に分割したデータも使用しました。この語分割データの使用を希望されるかたは別途NTCIR事務局にご連絡ください。
    テストコレクション利用申込書
    テストコレクション使用許諾に関する覚書
    ・NTCIR-1のCD-ROMのREADME [ PDF] [ txt:EUC]

    NTCIR-2 SUMM(テキスト自動要約用テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(毎日新聞記事データ(1994,1995,1998))、要約データ(人手作成要約:180記事について、各々3人の分析者が長さや戦略の異なる7種類の要約を作成)からなります。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。

    NTCIR-2 SUMM要約データ
    利用申込書
    利用申請書
    利用規程
    ・NTCIR-2 SUMMのREADME [ EUC] [ JIS] [ ShiftJIS]

    NTCIR-2 SUMM TAO(自動要約用データ:TAO作成)
    [ テストコレクション詳細一覧 ]
    現在配布を中止しています。配布が可能になるようでしたら、NTCIRより e-mail にてお知らせします。  (お知らせを希望される方は、NTCIR mailing list(「NTCIR一般メイリングリスト」)にご登録ください.)
  • NTCIR-3
    NTCIR-3 CLIR(情報検索/言語横断検索用テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(毎日新聞記事データ1998-1999(日本語)、:CIRB011+CIRB020(台湾の新聞各種1998-1999)、毎日デイリー1998-1999(日本で発行された英文新聞)、EIRB010(台湾で発行された英語新聞各種1998-1999); Korean Economic Daily1994(韓国語の新聞記事))、検索課題(1998-1999年記事用50件、1994年用30件。それぞれ、中韓日英4ヶ国語)、正解判定からなります。NIIからは、研究目的では検索課題と正解判定からなる「検索課題データ」、英語文書データのうち毎日デイリーファイル (1998-1999)、中国語データのうちCIRB020を配布します。文書データはNTCIR-4 CLIRで も使用しています。日本語文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を 得ることができます。それ以外の文書データはNTCIRワークショップの参加者のみが使用できます。検索実験に使用できる検索課題と正解判定ファイルは、検索対象となる文書の 言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。

    検索課題・適合判定データのみのお申し込みの場合
    利用申込書
    利用申請書
    利用規程
    テストコレクション(文書データと検索課題・適合判定データ)のお申し込みの場合
    利用申込書
    覚書
    ・NTCIR-3 CLIRのREADME [ ドライラン (英語版)] [ フォーマルラン (英語版)]

    NTCIR-3 PATENT(特許検索テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(日本国特許公報全文1998-1999、JAPIO抄録(日本語抄録1995-1999)、PAJ(英文抄録 1995-1999))、検索課題30件(日本語と、中国語(繁体字、簡体字)、韓国語、英語への翻訳)、正解判定からなります。JAPIO抄録は、公報中の出願人抄録をもとに抄録作成専門家が作成し、PAJはJAPIO抄録の英訳)。文書は全文が約18GB、抄録が約4GBです。NTCIR-4 PATENTでは特許公報全文1993-2002, PAJ1993-2002を使用していますが、同じ年代でも少数のNTCIR-3と異なる文書データが含まれています。検索課題は、関連する新聞記事を含み、新聞記事から特許を探すジャンル横断検索と通常の検索課題から探すad hoc検索の実験ができます。テストコレクション全体をNIIから研究目的で提供します。

    検索課題・適合判定データのみのお申し込みの場合
    利用申込書
    使用許諾に関する覚書
    ・NTCIR-3 CLIRのREADME [ EUC] [ JIS] [ ShiftJIS]

    NTCIR-3 QA (質問応答用テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(毎日新聞記事データ1998-1999)、質問(約1200件。日本語と英語への翻訳版)、解答からなります。NIIからは、研究目的では質問と解答からなる「質問応答データ」を配布します。文書データはNTCIR-4 QACで も使用しています。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を 得ることができます。

    検索課題・適合判定データのみのお申し込みの場合
    利用申込書
    利用申請書
    利用規程
    ・NTCIR-3 QAのREADME [ EUC] [ JIS]

    NTCIR-3 SUMM(テキスト自動要約用テストコレクション)
    [ テストコレクション詳細一覧 ]
    コレクションは、文書データ(毎日新聞記事データ1998,1999)、要約データからなります。要約データは、単一文書要約(60記事について、各々3人の分析者が長さや戦略の異なる7種類の要約を作成)と複数文書要約(50種類の記事セットについて、各々3人の分析者が長さの異なる2種類の要約を作成。記事セットのトピックも明示)の人手作成要約データを含みます。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。

    要約データ
    利用申込書
    利用申請書
    利用規程
    ・NTCIR-2 SUMMのREADME [ フォーマルラン] [ ドライラン]

    NTCIR-3 WEB(Web検索評価用テストコレクション)
    [ テストコレクション詳細一覧 ]
    現在配布を中止しています。配布が可能になるようでしたら、NTCIRより e-mail にてお知らせします。
    (お知らせを希望される方は、NTCIR mailing list (「NTCIR一般メイリングリスト」)にご登録ください.)

    コレクションは、文書データ(主として.jpドメインから収集したHTMLもしくはプレーンテキストファイル。言語は主に日本語と英語、ごく一部にその他の言語。100GB)、検索課題47件(日本語と英訳)、正解判定からなります。正解判定は1クリック先も考慮したものと文書単体で評価したものがあります。テストコレクション全体をNIIから研究目的で提供します。文書データと、検索課題データ(検索課題と正解判定)とを別々に申し込んでください。
    (従来、文書データの利用と処理は、国立情報学研究所内に設置された「オープンラボラトリ」内のみに限られていましたが、この制限はなくなり ました。)

    文書データ
    利用申込書
    使用許諾に関する覚書
    ・データの内容 [文献 第3節 参照]
    検索課題・適合判定データ
    利用申込書
    利用申請書
    利用規程
    ・NTCIR-3 検索課題・適合判定データのREADME
     [メインタスク (EUC)] [メインタスク (S-JIS)]
     [音声入力型検索サブタスク(EUC)] [音声入力型検索サブタスク(S-JIS)]
現在進行中のNTCIR ワークショップについては、こちらを御覧下さい。
http://ntcir.nii.ac.jp/jp/ntcir8/
Updated on:2009.07.29
ntc-admin