ReasonIR: Обучение ретриверов для задач логического вывода
ReasonIR: Training Retrievers for Reasoning Tasks
April 29, 2025
Авторы: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
cs.AI
Аннотация
Мы представляем ReasonIR-8B — первый ретривер, специально обученный для задач общего рассуждения. Существующие ретриверы демонстрируют ограниченные успехи в задачах рассуждения, отчасти потому, что доступные обучающие наборы данных сосредоточены на коротких фактологических запросах, связанных с документами, которые прямо отвечают на них. Мы разработали синтетический конвейер генерации данных, который для каждого документа создает сложный и релевантный запрос, а также правдоподобно связанный, но в конечном итоге бесполезный сложный негативный пример. Обучая модель на смеси наших синтетических данных и существующих публичных данных, ReasonIR-8B достигает нового рекорда в 29.9 nDCG@10 без реранкера и 36.9 nDCG@10 с реранкером на BRIGHT — широко используемом бенчмарке для задач интенсивного рассуждения в информационном поиске (IR). При применении к задачам RAG ReasonIR-8B улучшает производительность на MMLU и GPQA на 6.4% и 22.6% соответственно по сравнению с базовым закрытым подходом, превосходя другие ретриверы и поисковые системы. Кроме того, ReasonIR-8B более эффективно использует вычислительные ресурсы на этапе тестирования: на BRIGHT его производительность последовательно увеличивается с более длинными и информационно насыщенными переписанными запросами; он продолжает превосходить другие ретриверы при использовании совместно с реранкером на основе LLM. Наш подход к обучению является универсальным и может быть легко адаптирован для будущих LLM; в связи с этим мы открываем исходный код, данные и модель.
English
We present ReasonIR-8B, the first retriever specifically trained for general
reasoning tasks. Existing retrievers have shown limited gains on reasoning
tasks, in part because existing training datasets focus on short factual
queries tied to documents that straightforwardly answer them. We develop a
synthetic data generation pipeline that, for each document, our pipeline
creates a challenging and relevant query, along with a plausibly related but
ultimately unhelpful hard negative. By training on a mixture of our synthetic
data and existing public data, ReasonIR-8B achieves a new state-of-the-art of
29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a
widely-used reasoning-intensive information retrieval (IR) benchmark. When
applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4%
and 22.6% respectively, relative to the closed-book baseline, outperforming
other retrievers and search engines. In addition, ReasonIR-8B uses test-time
compute more effectively: on BRIGHT, its performance consistently increases
with longer and more information-rich rewritten queries; it continues to
outperform other retrievers when combined with an LLM reranker. Our training
recipe is general and can be easily extended to future LLMs; to this end, we
open-source our code, data, and model.Summary
AI-Generated Summary