ReasonIR: Treinando Recuperadores para Tarefas de Raciocínio

Resumo

Apresentamos o ReasonIR-8B, o primeiro retriever especificamente treinado para tarefas de raciocínio geral. Os retrievers existentes têm mostrado ganhos limitados em tarefas de raciocínio, em parte porque os conjuntos de dados de treinamento atuais focam em consultas factuais curtas vinculadas a documentos que as respondem de forma direta. Desenvolvemos um pipeline de geração de dados sintéticos que, para cada documento, cria uma consulta desafiadora e relevante, juntamente com um negativo difícil plausivelmente relacionado, mas que, no final, não é útil. Ao treinar com uma mistura de nossos dados sintéticos e dados públicos existentes, o ReasonIR-8B alcança um novo estado da arte de 29,9 nDCG@10 sem reranker e 36,9 nDCG@10 com reranker no BRIGHT, um benchmark amplamente utilizado de recuperação de informação (IR) intensivo em raciocínio. Quando aplicado a tarefas de RAG, o ReasonIR-8B melhora o desempenho no MMLU e GPQA em 6,4% e 22,6%, respectivamente, em relação à linha de base de livro fechado, superando outros retrievers e mecanismos de busca. Além disso, o ReasonIR-8B utiliza o cálculo em tempo de teste de forma mais eficaz: no BRIGHT, seu desempenho aumenta consistentemente com consultas reescritas mais longas e ricas em informação; ele continua a superar outros retrievers quando combinado com um reranker de LLM. Nossa receita de treinamento é geral e pode ser facilmente estendida para LLMs futuros; para isso, disponibilizamos nosso código, dados e modelo como open-source.

English

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

ReasonIR: Treinando Recuperadores para Tarefas de Raciocínio

ReasonIR: Training Retrievers for Reasoning Tasks

Resumo

Summary

Support

Support