ReasonIR: Addestramento di Retriever per Compiti di Ragionamento

Abstract

Presentiamo ReasonIR-8B, il primo retriever specificamente addestrato per compiti di ragionamento generale. I retriever esistenti hanno mostrato guadagni limitati nei compiti di ragionamento, in parte perché i dataset di addestramento attuali si concentrano su query fattuali brevi legate a documenti che rispondono in modo diretto. Abbiamo sviluppato una pipeline di generazione di dati sintetici che, per ogni documento, crea una query rilevante e impegnativa, insieme a un hard negativo plausibilmente correlato ma alla fine inutile. Addestrando su una miscela dei nostri dati sintetici e dei dati pubblici esistenti, ReasonIR-8B raggiunge un nuovo stato dell'arte di 29.9 nDCG@10 senza reranker e 36.9 nDCG@10 con reranker su BRIGHT, un benchmark ampiamente utilizzato per il recupero di informazioni (IR) intensivo di ragionamento. Quando applicato ai compiti RAG, ReasonIR-8B migliora le prestazioni di MMLU e GPQA rispettivamente del 6.4% e del 22.6%, rispetto al baseline closed-book, superando altri retriever e motori di ricerca. Inoltre, ReasonIR-8B utilizza il calcolo al momento del test in modo più efficace: su BRIGHT, le sue prestazioni aumentano costantemente con query riscritte più lunghe e ricche di informazioni; continua a superare altri retriever quando combinato con un reranker LLM. La nostra ricetta di addestramento è generale e può essere facilmente estesa ai futuri LLM; a tal fine, rendiamo open-source il nostro codice, i dati e il modello.

English

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

ReasonIR: Addestramento di Retriever per Compiti di Ragionamento

ReasonIR: Training Retrievers for Reasoning Tasks

Abstract

Support