ReasonIR : Entraînement des systèmes de recherche pour les tâches de raisonnement
ReasonIR: Training Retrievers for Reasoning Tasks
April 29, 2025
Auteurs: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
cs.AI
Résumé
Nous présentons ReasonIR-8B, le premier système de recherche spécifiquement entraîné pour les tâches de raisonnement général. Les systèmes de recherche existants ont montré des gains limités sur les tâches de raisonnement, en partie parce que les ensembles de données d'entraînement actuels se concentrent sur des requêtes factuelles courtes liées à des documents qui y répondent de manière directe. Nous développons un pipeline de génération de données synthétiques qui, pour chaque document, crée une requête pertinente et stimulante, ainsi qu'un exemple négatif difficile plausiblement lié mais finalement inutile. En entraînant sur un mélange de nos données synthétiques et de données publiques existantes, ReasonIR-8B atteint un nouvel état de l'art de 29,9 nDCG@10 sans réordonnancement et de 36,9 nDCG@10 avec réordonnancement sur BRIGHT, un benchmark largement utilisé en recherche d'information (IR) intensif en raisonnement. Lorsqu'il est appliqué à des tâches de RAG, ReasonIR-8B améliore les performances sur MMLU et GPQA de 6,4 % et 22,6 % respectivement, par rapport à la base de référence en mode fermé, surpassant ainsi d'autres systèmes de recherche et moteurs de recherche. De plus, ReasonIR-8B utilise plus efficacement les ressources de calcul au moment du test : sur BRIGHT, ses performances augmentent systématiquement avec des requêtes réécrites plus longues et plus riches en informations ; il continue à surpasser d'autres systèmes de recherche lorsqu'il est combiné avec un réordonnanceur LLM. Notre méthode d'entraînement est générale et peut être facilement étendue aux futurs LLM ; à cette fin, nous rendons public notre code, nos données et notre modèle.
English
We present ReasonIR-8B, the first retriever specifically trained for general
reasoning tasks. Existing retrievers have shown limited gains on reasoning
tasks, in part because existing training datasets focus on short factual
queries tied to documents that straightforwardly answer them. We develop a
synthetic data generation pipeline that, for each document, our pipeline
creates a challenging and relevant query, along with a plausibly related but
ultimately unhelpful hard negative. By training on a mixture of our synthetic
data and existing public data, ReasonIR-8B achieves a new state-of-the-art of
29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a
widely-used reasoning-intensive information retrieval (IR) benchmark. When
applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4%
and 22.6% respectively, relative to the closed-book baseline, outperforming
other retrievers and search engines. In addition, ReasonIR-8B uses test-time
compute more effectively: on BRIGHT, its performance consistently increases
with longer and more information-rich rewritten queries; it continues to
outperform other retrievers when combined with an LLM reranker. Our training
recipe is general and can be easily extended to future LLMs; to this end, we
open-source our code, data, and model.Summary
AI-Generated Summary