Q-RAG: Lange Context Meerstaps Retrieval via Op Waarde Gebaseerde Embedder Training

Samenvatting

Retrieval-Augmented Generation (RAG)-methoden verbeteren de prestaties van LLM's door efficiënt relevante context te filteren, waardoor hallucinaties en inferentiekosten worden verminderd. De meeste bestaande RAG-methoden richten zich echter op eenstapsretrieval, wat vaak onvoldoende is voor het beantwoorden van complexe vragen die meerstapszoekopdrachten vereisen. Recentelijk zijn er meerstapsretrieval-benaderingen ontstaan, die doorgaans bestaan uit het fijnstemmen van kleine LLM's om meerstapsretrieval uit te voeren. Dit type fijnstemming is zeer resource-intensief en maakt het gebruik van grotere LLM's niet mogelijk. In dit werk stellen we Q-RAG voor, een nieuwe benadering die het Embedder-model fijnstemt voor meerstapsretrieval met behulp van reinforcement learning (RL). Q-RAG biedt een concurrerend, resource-efficiënt alternatief voor bestaande meerstapsretrieval-methoden voor open-domein vraagbeantwoording en behaalt state-of-the-art resultaten op de populaire long-context benchmarks BabiLong en RULER voor contexten tot 10M tokens. Code is beschikbaar op https://github.com/griver/Q-RAG

English

Retrieval-Augmented Generation (RAG) methods enhance LLM performance by efficiently filtering relevant context for LLMs, reducing hallucinations and inference cost. However, most existing RAG methods focus on single-step retrieval, which is often insufficient for answering complex questions that require multi-step search. Recently, multi-step retrieval approaches have emerged, typically involving the fine-tuning of small LLMs to perform multi-step retrieval. This type of fine-tuning is highly resource-intensive and does not enable the use of larger LLMs. In this work, we propose Q-RAG, a novel approach that fine-tunes the Embedder model for multi-step retrieval using reinforcement learning (RL). Q-RAG offers a competitive, resource-efficient alternative to existing multi-step retrieval methods for open-domain question answering and achieves state-of-the-art results on the popular long-context benchmarks BabiLong and RULER for contexts up to 10M tokens. Code is available at https://github.com/griver/Q-RAG