ReasonIR: 추론 작업을 위한 검색 모델 학습
ReasonIR: Training Retrievers for Reasoning Tasks
April 29, 2025
저자: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
cs.AI
초록
우리는 일반적인 추론 작업을 위해 특별히 훈련된 첫 번째 검색기인 ReasonIR-8B를 소개합니다. 기존 검색기들은 추론 작업에서 제한된 성능 향상만을 보여왔는데, 이는 부분적으로 기존 훈련 데이터셋이 문서와 직접적으로 연결된 짧은 사실적 질문에 초점을 맞추고 있기 때문입니다. 우리는 각 문서에 대해 도전적이고 관련성 높은 질문과, 표면적으로는 관련성이 있지만 실제로는 도움이 되지 않는 어려운 부정적 샘플을 생성하는 합성 데이터 생성 파이프라인을 개발했습니다. 합성 데이터와 기존 공개 데이터를 혼합하여 훈련한 ReasonIR-8B는 널리 사용되는 추론 중심 정보 검색(IR) 벤치마크인 BRIGHT에서 리랭커 없이 29.9 nDCG@10, 리랭커와 함께 36.9 nDCG@10라는 새로운 최고 성적을 달성했습니다. RAG 작업에 적용했을 때, ReasonIR-8B는 MMLU와 GPQA 성능을 각각 6.4%와 22.6% 향상시켜, 닫힌 책(closed-book) 기준선 대비 다른 검색기와 검색 엔진들을 능가했습니다. 또한, ReasonIR-8B는 테스트 시간 계산을 더 효과적으로 사용합니다: BRIGHT에서, 더 길고 정보가 풍부한 재구성된 질문을 사용할수록 성능이 지속적으로 증가하며, LLM 리랭커와 결합했을 때도 다른 검색기들을 계속해서 능가합니다. 우리의 훈련 방법은 일반적이며 향후 LLM으로 쉽게 확장할 수 있습니다; 이를 위해 우리는 코드, 데이터, 모델을 오픈소스로 공개합니다.
English
We present ReasonIR-8B, the first retriever specifically trained for general
reasoning tasks. Existing retrievers have shown limited gains on reasoning
tasks, in part because existing training datasets focus on short factual
queries tied to documents that straightforwardly answer them. We develop a
synthetic data generation pipeline that, for each document, our pipeline
creates a challenging and relevant query, along with a plausibly related but
ultimately unhelpful hard negative. By training on a mixture of our synthetic
data and existing public data, ReasonIR-8B achieves a new state-of-the-art of
29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a
widely-used reasoning-intensive information retrieval (IR) benchmark. When
applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4%
and 22.6% respectively, relative to the closed-book baseline, outperforming
other retrievers and search engines. In addition, ReasonIR-8B uses test-time
compute more effectively: on BRIGHT, its performance consistently increases
with longer and more information-rich rewritten queries; it continues to
outperform other retrievers when combined with an LLM reranker. Our training
recipe is general and can be easily extended to future LLMs; to this end, we
open-source our code, data, and model.Summary
AI-Generated Summary