Q-RAG: Recuperación Multietapa de Contexto Largo mediante Entrenamiento de Incrustadores Basado en Valor
Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training
May 4, 2026
Autores: Artyom Sorokin, Nazar Buzun, Alexander Anokhin, Oleg Inozemcev, Egor Vedernikov, Petr Anokhin, Mikhail Burtsev, Trushkov Alexey, Yin Wenshuai, Evgeny Burnaev
cs.AI
Resumen
Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora el rendimiento de los LLM al filtrar de manera eficiente el contexto relevante para estos modelos, reduciendo las alucinaciones y el costo de inferencia. Sin embargo, la mayoría de los métodos RAG existentes se centran en la recuperación de un solo paso, lo cual suele ser insuficiente para responder preguntas complejas que requieren una búsqueda de múltiples pasos. Recientemente, han surgido enfoques de recuperación multi-paso, que generalmente implican el ajuste fino de LLM pequeños para realizar recuperaciones en varios pasos. Este tipo de ajuste fino consume muchos recursos y no permite el uso de LLM más grandes. En este trabajo, proponemos Q-RAG, un enfoque novedoso que ajusta el modelo Embedder para la recuperación multi-paso mediante aprendizaje por refuerzo (RL). Q-RAG ofrece una alternativa competitiva y eficiente en recursos frente a los métodos de recuperación multi-paso existentes para la respuesta a preguntas en dominios abiertos, logrando resultados de vanguardia en los benchmarks populares de contexto largo BabiLong y RULER para contextos de hasta 10M de tokens. El código está disponible en https://github.com/griver/Q-RAG.
English
Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG