Q-RAG: Mehrstufige Abfrage mit langem Kontext durch wertbasiertes Embedder-Training
Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training
May 4, 2026
Autoren: Artyom Sorokin, Nazar Buzun, Alexander Anokhin, Oleg Inozemcev, Egor Vedernikov, Petr Anokhin, Mikhail Burtsev, Trushkov Alexey, Yin Wenshuai, Evgeny Burnaev
cs.AI
Zusammenfassung
Retrieval-Augmented Generation (RAG)-Methoden verbessern die Leistung großer Sprachmodelle (LLMs), indem sie relevante Kontexte effizient filtern und so Halluzinationen sowie Inferenzkosten reduzieren. Die meisten bestehenden RAG-Ansätze konzentrieren sich jedoch auf die einstufige Abfrage, die zur Beantwortung komplexer, mehrstufiger Suchvorgänge oft nicht ausreicht. In jüngster Zeit sind mehrstufige Abfrageverfahren entstanden, die typischerweise das Feintuning kleiner LLMs für mehrstufige Abfragen umfassen. Diese Art des Feintunings ist sehr ressourcenintensiv und ermöglicht nicht den Einsatz größerer LLMs. In dieser Arbeit stellen wir Q-RAG vor, einen neuartigen Ansatz, der das Embedder-Modell mittels bestärkendem Lernen (Reinforcement Learning, RL) für mehrstufige Abfragen feinabstimmt. Q-RAG bietet eine wettbewerbsfähige, ressourcenschonende Alternative zu bestehenden mehrstufigen Abfrageverfahren für die Beantwortung offener Fragen und erzielt Spitzenwerte auf den gängigen Langkontext-Benchmarks BabiLong und RULER für Kontexte mit bis zu 10 Millionen Token. Der Code ist unter https://github.com/griver/Q-RAG verfügbar.
English
Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG