ReasonIR: Training von Retrievern für Reasoning-Aufgaben

papers.abstract

Wir präsentieren ReasonIR-8B, den ersten Retrieval-Modell, das speziell für allgemeine Denkaufgaben trainiert wurde. Bisherige Retrieval-Modelle haben nur begrenzte Fortschritte bei Denkaufgaben gezeigt, teilweise weil bestehende Trainingsdatensätze sich auf kurze, faktenbasierte Anfragen konzentrieren, die direkt durch Dokumente beantwortet werden. Wir entwickeln eine Pipeline zur synthetischen Datengenerierung, die für jedes Dokument eine herausfordernde und relevante Anfrage erstellt, zusammen mit einem plausibel verwandten, aber letztlich unbrauchbaren Hard Negative. Durch das Training auf einer Mischung aus unseren synthetischen Daten und bestehenden öffentlichen Daten erreicht ReasonIR-8B einen neuen State-of-the-Art von 29,9 nDCG@10 ohne Reranker und 36,9 nDCG@10 mit Reranker auf BRIGHT, einem weit verbreiteten Benchmark für informationsintensives Retrieval (IR). Bei der Anwendung auf RAG-Aufgaben verbessert ReasonIR-8B die Leistung bei MMLU und GPQA um 6,4 % bzw. 22,6 % im Vergleich zur Closed-Book-Baseline und übertrifft dabei andere Retrieval-Modelle und Suchmaschinen. Darüber hinaus nutzt ReasonIR-8B die Rechenleistung zur Testzeit effektiver: Bei BRIGHT steigt seine Leistung kontinuierlich mit längeren und informationsreicheren umformulierten Anfragen; es übertrifft weiterhin andere Retrieval-Modelle, wenn es mit einem LLM-Reranker kombiniert wird. Unser Trainingsrezept ist allgemein und kann leicht auf zukünftige LLMs erweitert werden; zu diesem Zweck stellen wir unseren Code, unsere Daten und unser Modell als Open Source zur Verfügung.

English

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

ReasonIR: Training von Retrievern für Reasoning-Aufgaben

ReasonIR: Training Retrievers for Reasoning Tasks

papers.abstract

Support