ReasonIR: Retrievers trainen voor redeneertaken

Samenvatting

We presenteren ReasonIR-8B, de eerste retriever die specifiek is getraind voor algemene redeneertaken. Bestaande retrievers hebben beperkte vooruitgang geboekt bij redeneertaken, deels omdat bestaande trainingsdatasets zich richten op korte feitelijke vragen die gekoppeld zijn aan documenten die deze vragen rechtstreeks beantwoorden. We ontwikkelen een synthetische datageneratiepijplijn die voor elk document een uitdagende en relevante vraag genereert, samen met een plausibel gerelateerd maar uiteindelijk onbruikbaar hard negatief. Door te trainen op een mix van onze synthetische data en bestaande openbare data, bereikt ReasonIR-8B een nieuwe state-of-the-art van 29,9 nDCG@10 zonder reranker en 36,9 nDCG@10 met reranker op BRIGHT, een veelgebruikte benchmark voor informatieverwerking (IR) die intensief redeneren vereist. Wanneer toegepast op RAG-taken, verbetert ReasonIR-8B de prestaties op MMLU en GPQA met respectievelijk 6,4% en 22,6% ten opzichte van de closed-book baseline, en overtreft daarbij andere retrievers en zoekmachines. Daarnaast gebruikt ReasonIR-8B rekentijd tijdens de testfase effectiever: op BRIGHT neemt de prestaties consistent toe bij langere en informatie-rijkere herschreven vragen; het blijft andere retrievers overtreffen wanneer gecombineerd met een LLM-reranker. Ons trainingsrecept is algemeen en kan eenvoudig worden uitgebreid naar toekomstige LLM's; om dit te faciliteren, maken we onze code, data en model openbaar.

English

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

ReasonIR: Retrievers trainen voor redeneertaken

ReasonIR: Training Retrievers for Reasoning Tasks

Samenvatting

Summary

Support

Support