ChatPaper.aiChatPaper

Q-RAG: Многошаговый поиск в длинном контексте посредством обучения эмбеддера на основе ценности

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training

May 4, 2026
Авторы: Artyom Sorokin, Nazar Buzun, Alexander Anokhin, Oleg Inozemcev, Egor Vedernikov, Petr Anokhin, Mikhail Burtsev, Trushkov Alexey, Yin Wenshuai, Evgeny Burnaev
cs.AI

Аннотация

Методы генерации с дополнением извлечения (Retrieval-Augmented Generation, RAG) повышают производительность больших языковых моделей (LLM) за счёт эффективной фильтрации релевантного контекста, что снижает уровень галлюцинаций и вычислительные затраты. Однако большинство существующих методов RAG ориентированы на одношаговое извлечение, что часто оказывается недостаточным для ответов на сложные вопросы, требующие многошагового поиска. В последнее время появились подходы, основанные на многошаговом извлечении, которые, как правило, предполагают донастройку небольших LLM для выполнения многошагового поиска. Такая донастройка требует значительных ресурсов и не позволяет использовать более крупные LLM. В данной работе мы предлагаем Q-RAG — новый подход, в котором с помощью обучения с подкреплением (RL) выполняется донастройка модели эмбеддера для многошагового извлечения. Q-RAG представляет собой конкурентоспособную и ресурсоэффективную альтернативу существующим методам многошагового извлечения для ответов на вопросы по открытым доменам и достигает передовых результатов на популярных бенчмарках длинного контекста BabiLong и RULER для контекстов объёмом до 10 миллионов токенов. Исходный код доступен по адресу: https://github.com/griver/Q-RAG.
English
Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG
PDF81May 12, 2026