ChatPaper.aiChatPaper

ReasonIR: 推論タスクのための検索モデルのトレーニング

ReasonIR: Training Retrievers for Reasoning Tasks

April 29, 2025
著者: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
cs.AI

要旨

私たちは、一般的な推論タスクに特化して訓練された最初の検索モデルであるReasonIR-8Bを紹介します。既存の検索モデルは、推論タスクにおいて限定的な成果しか示していませんでした。これは、既存の訓練データセットが、短い事実ベースのクエリとそれに直接答える文書に焦点を当てているためです。私たちは、各文書に対して、挑戦的で関連性の高いクエリと、一見関連がありそうだが最終的には役に立たないハードネガティブを生成する合成データ生成パイプラインを開発しました。合成データと既存の公開データを組み合わせて訓練することで、ReasonIR-8Bは、広く使用されている推論集約型情報検索(IR)ベンチマークであるBRIGHTにおいて、リランカーなしで29.9 nDCG@10、リランカーありで36.9 nDCG@10という新たな最先端の性能を達成しました。RAGタスクに適用すると、ReasonIR-8Bは、閉じた本のベースラインと比較して、MMLUとGPQAの性能をそれぞれ6.4%と22.6%向上させ、他の検索モデルや検索エンジンを上回りました。さらに、ReasonIR-8Bは、テスト時の計算をより効果的に利用します。BRIGHTにおいて、その性能は、より長く情報量の多い書き換えクエリに対して一貫して向上し、LLMリランカーと組み合わせた場合でも他の検索モデルを上回り続けます。私たちの訓練レシピは汎用的であり、将来のLLMに容易に拡張できます。この目的のために、私たちはコード、データ、およびモデルをオープンソースとして公開します。
English
We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

Summary

AI-Generated Summary

PDF261April 30, 2025