Q-RAG: 長文脈マルチステップ検索のための価値ベースのエンベッダー訓練
Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training
May 4, 2026
著者: Artyom Sorokin, Nazar Buzun, Alexander Anokhin, Oleg Inozemcev, Egor Vedernikov, Petr Anokhin, Mikhail Burtsev, Trushkov Alexey, Yin Wenshuai, Evgeny Burnaev
cs.AI
要旨
検索拡張生成(RAG)手法は、LLMに関連する文脈を効率的にフィルタリングすることで、幻覚の軽減と推論コストの削減を実現し、LLMの性能を向上させる。しかし、既存のほとんどのRAG手法は単一ステップの検索に焦点を当てており、複数ステップの検索を必要とする複雑な質問に答えるには不十分であることが多い。近年では複数ステップ検索手法が登場しており、通常は小規模LLMをファインチューニングして複数ステップ検索を実行する手法が取られている。この種のファインチューニングは極めてリソース集約的であり、大規模LLMの利用を可能にしない。本研究では、強化学習(RL)を用いて埋め込みモデルを複数ステップ検索用にファインチューニングする新しい手法であるQ-RAGを提案する。Q-RAGは、オープンドメイン質問応答において既存の複数ステップ検索手法に対して競争力のあるリソース効率の高い代替手段を提供し、最大1000万トークンの文脈を対象とする人気の長文脈ベンチマークBabiLongおよびRULERにおいて最先端の成果を達成する。コードはhttps://github.com/griver/Q-RAGで公開されている。
English
Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG