Q-RAG : Recherche multi-étapes à long contexte via l'entraînement d'un encodeur basé sur la valeur
Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training
May 4, 2026
Auteurs: Artyom Sorokin, Nazar Buzun, Alexander Anokhin, Oleg Inozemcev, Egor Vedernikov, Petr Anokhin, Mikhail Burtsev, Trushkov Alexey, Yin Wenshuai, Evgeny Burnaev
cs.AI
Résumé
Les méthodes de génération augmentée par récupération (RAG) améliorent les performances des LLM en filtrant efficacement le contexte pertinent pour ceux-ci, réduisant ainsi les hallucinations et le coût d'inférence. Cependant, la plupart des méthodes RAG existantes se concentrent sur la récupération en une seule étape, ce qui est souvent insuffisant pour répondre à des questions complexes nécessitant une recherche en plusieurs étapes. Récemment, des approches de récupération en plusieurs étapes sont apparues, impliquant généralement le fine-tuning de petits LLM pour effectuer une récupération en plusieurs étapes. Ce type de fine-tuning est très gourmand en ressources et ne permet pas l'utilisation de LLM plus grands. Dans ce travail, nous proposons Q-RAG, une nouvelle approche qui fine-tune le modèle Embedder pour la récupération en plusieurs étapes à l'aide de l'apprentissage par renforcement (RL). Q-RAG offre une alternative compétitive et efficace en ressources aux méthodes de récupération en plusieurs étapes existantes pour la réponse à des questions en domaine ouvert et atteint des résultats de pointe sur les benchmarks de contexte long populaires BabiLong et RULER pour des contextes allant jusqu'à 10 millions de tokens. Le code est disponible à l'adresse https://github.com/griver/Q-RAG
English
Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG