RL-Index: Reinforcement Learning voor Retrieval Index Redeneren

Samenvatting

Het ophalen van externe kennis is essentieel voor het oplossen van realistische taken, maar blijft uitdagend wanneer de relatie tussen een query en de relevante kennis verder gaat dan oppervlakkige semantische of lexicale matching (bijvoorbeeld wiskundige problemen die afhankelijk zijn van dezelfde stelling of codeerwerk die diepgaand redeneren vereist). Bestaande benaderingen zijn voornamelijk gebaseerd op redenering aan de query-zijde (bijv. herschrijven van queries), wat aanzienlijke online latentie introduceert en de mogelijkheid onderbenut om over de kennisverzameling zelf te redeneren (d.w.z. index-zijde redenering). In dit artikel stellen we RL-Index voor, een agentisch indexeringsraamwerk dat redenering in de retrieval-index als een versterkend leerprobleem formuleert. In plaats van redenering op het moment van de query uit te voeren, verplaatst RL-Index de redenering naar de indexeringsfase door documenten aan te vullen met LLM-gegenereerde redeneringen die de latente query-kennisrelatie expliciet coderen. Om de kwaliteit van deze redeneringen te optimaliseren, gebruiken we Group Relative Policy Optimization (GRPO) en retrieval-similariteit als een verifieerbaar beloningssignaal, waardoor directe optimalisatie van indexeringsbeslissingen voor retrieval-effectiviteit mogelijk wordt. Uitgebreide experimenten op de BRIGHT-benchmark tonen aan dat RL-Index zowel de retrieval-prestaties als de prestaties van downstream vraagbeantwoording consequent verbetert, terwijl de online inferentie-latentie aanzienlijk wordt verminderd. Bovendien generaliseert de geleerde redeneringsaanvulling over diverse retrievers en generatoren, wat de robuustheid ervan als een plug-and-play-indexeringsstrategie over verschillende retrievalsystemen benadrukt.

English

Retrieving external knowledge is essential for solving real-world tasks, yet it remains challenging when the relationship between a query and its relevant knowledge involves implicit and complex reasoning beyond surface-level semantic or lexical matching (e.g., mathematical problems relying on the same theorem or coding requiring deep reasoning). Existing approaches primarily rely on query-side reasoning (e.g., query rewriting), which introduces significant online latency and underutilizes the opportunity to perform reasoning over the knowledge corpus itself (i.e., index-side reasoning). In this paper, we propose RL-Index, an agentic indexing framework that formulates retrieval index reasoning as a reinforcement learning problem. Instead of performing reasoning at query time, RL-Index shifts reasoning to the indexing stage by augmenting documents with LLM-generated rationales that explicitly encode the latent query-knowledge relationship. To optimize the quality of these rationales, we employ Group Relative Policy Optimization (GRPO) and use retrieval similarity as a verifiable reward signal, enabling direct optimization of indexing decisions for retrieval effectiveness. Extensive experiments on the BRIGHT benchmark demonstrate that RL-Index consistently improves both retrieval and downstream question-answering performance, while significantly reducing online inference latency. Moreover, the learned rationale augmentation generalizes across diverse retrievers and generators, highlighting its robustness as a plug-and-play indexing strategy across different retrieval systems.