ReasonIR: Entrenamiento de Recuperadores para Tareas de Razonamiento

Resumen

Presentamos ReasonIR-8B, el primer recuperador específicamente entrenado para tareas de razonamiento general. Los recuperadores existentes han mostrado ganancias limitadas en tareas de razonamiento, en parte porque los conjuntos de datos de entrenamiento actuales se centran en consultas factuales cortas vinculadas a documentos que las responden de manera directa. Desarrollamos una pipeline de generación de datos sintéticos que, para cada documento, crea una consulta desafiante y relevante, junto con un negativo difícil que es plausiblemente relacionado pero finalmente inútil. Al entrenar con una mezcla de nuestros datos sintéticos y datos públicos existentes, ReasonIR-8B alcanza un nuevo estado del arte de 29.9 nDCG@10 sin reranker y 36.9 nDCG@10 con reranker en BRIGHT, un punto de referencia ampliamente utilizado para la recuperación de información (IR) intensiva en razonamiento. Cuando se aplica a tareas de RAG, ReasonIR-8B mejora el rendimiento en MMLU y GPQA en un 6.4% y 22.6% respectivamente, en comparación con la línea base de libro cerrado, superando a otros recuperadores y motores de búsqueda. Además, ReasonIR-8B utiliza el cómputo en tiempo de prueba de manera más efectiva: en BRIGHT, su rendimiento aumenta consistentemente con consultas reescritas más largas y ricas en información; continúa superando a otros recuperadores cuando se combina con un reranker basado en LLM. Nuestra receta de entrenamiento es general y puede extenderse fácilmente a futuros LLMs; con este fin, liberamos nuestro código, datos y modelo como código abierto.

English

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

ReasonIR: Entrenamiento de Recuperadores para Tareas de Razonamiento

ReasonIR: Training Retrievers for Reasoning Tasks

Resumen

Support