ReasonIR: Treinando Recuperadores para Tarefas de Raciocínio
ReasonIR: Training Retrievers for Reasoning Tasks
April 29, 2025
Autores: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
cs.AI
Resumo
Apresentamos o ReasonIR-8B, o primeiro retriever especificamente treinado para tarefas de raciocínio geral. Os retrievers existentes têm mostrado ganhos limitados em tarefas de raciocínio, em parte porque os conjuntos de dados de treinamento atuais focam em consultas factuais curtas vinculadas a documentos que as respondem de forma direta. Desenvolvemos um pipeline de geração de dados sintéticos que, para cada documento, cria uma consulta desafiadora e relevante, juntamente com um negativo difícil plausivelmente relacionado, mas que, no final, não é útil. Ao treinar com uma mistura de nossos dados sintéticos e dados públicos existentes, o ReasonIR-8B alcança um novo estado da arte de 29,9 nDCG@10 sem reranker e 36,9 nDCG@10 com reranker no BRIGHT, um benchmark amplamente utilizado de recuperação de informação (IR) intensivo em raciocínio. Quando aplicado a tarefas de RAG, o ReasonIR-8B melhora o desempenho no MMLU e GPQA em 6,4% e 22,6%, respectivamente, em relação à linha de base de livro fechado, superando outros retrievers e mecanismos de busca. Além disso, o ReasonIR-8B utiliza o cálculo em tempo de teste de forma mais eficaz: no BRIGHT, seu desempenho aumenta consistentemente com consultas reescritas mais longas e ricas em informação; ele continua a superar outros retrievers quando combinado com um reranker de LLM. Nossa receita de treinamento é geral e pode ser facilmente estendida para LLMs futuros; para isso, disponibilizamos nosso código, dados e modelo como open-source.
English
We present ReasonIR-8B, the first retriever specifically trained for general
reasoning tasks. Existing retrievers have shown limited gains on reasoning
tasks, in part because existing training datasets focus on short factual
queries tied to documents that straightforwardly answer them. We develop a
synthetic data generation pipeline that, for each document, our pipeline
creates a challenging and relevant query, along with a plausibly related but
ultimately unhelpful hard negative. By training on a mixture of our synthetic
data and existing public data, ReasonIR-8B achieves a new state-of-the-art of
29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a
widely-used reasoning-intensive information retrieval (IR) benchmark. When
applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4%
and 22.6% respectively, relative to the closed-book baseline, outperforming
other retrievers and search engines. In addition, ReasonIR-8B uses test-time
compute more effectively: on BRIGHT, its performance consistently increases
with longer and more information-rich rewritten queries; it continues to
outperform other retrievers when combined with an LLM reranker. Our training
recipe is general and can be easily extended to future LLMs; to this end, we
open-source our code, data, and model.Summary
AI-Generated Summary