RL-Index: обучение с подкреплением для рассуждения о поисковом индексе

Аннотация

Извлечение внешних знаний необходимо для решения реальных задач, однако оно остается сложным, когда связь между запросом и соответствующими знаниями требует неявных и сложных рассуждений, выходящих за рамки поверхностного семантического или лексического соответствия (например, математические задачи, опирающиеся на одну и ту же теорему, или программирование, требующее глубоких рассуждений). Существующие подходы в основном полагаются на рассуждения на стороне запроса (например, переписывание запроса), что приводит к значительной задержке в реальном времени и не позволяет в полной мере использовать возможность проводить рассуждения над самим корпусом знаний (т.е. рассуждения на стороне индекса). В данной работе мы предлагаем RL-Index — агентный фреймворк индексирования, который формулирует рассуждения над индексом поиска как задачу обучения с подкреплением. Вместо выполнения рассуждений во время запроса, RL-Index переносит рассуждения на этап индексирования, дополняя документы сгенерированными LLM обоснованиями, которые явно кодируют скрытую связь между запросом и знаниями. Для оптимизации качества этих обоснований мы применяем групповую относительную оптимизацию политики (GRPO) и используем сходство поиска как поддающийся проверке сигнал вознаграждения, что позволяет напрямую оптимизировать решения по индексированию для повышения эффективности поиска. Обширные эксперименты на эталоне BRIGHT показывают, что RL-Index последовательно улучшает как производительность поиска, так и последующего ответа на вопросы, при этом значительно снижая задержку онлайн-вывода. Более того, обученное дополнение обоснованиями обобщается на различные поисковые системы и генераторы, что подчеркивает его надежность как стратегии индексирования «подключи и работай» в разных поисковых системах.

English

Retrieving external knowledge is essential for solving real-world tasks, yet it remains challenging when the relationship between a query and its relevant knowledge involves implicit and complex reasoning beyond surface-level semantic or lexical matching (e.g., mathematical problems relying on the same theorem or coding requiring deep reasoning). Existing approaches primarily rely on query-side reasoning (e.g., query rewriting), which introduces significant online latency and underutilizes the opportunity to perform reasoning over the knowledge corpus itself (i.e., index-side reasoning). In this paper, we propose RL-Index, an agentic indexing framework that formulates retrieval index reasoning as a reinforcement learning problem. Instead of performing reasoning at query time, RL-Index shifts reasoning to the indexing stage by augmenting documents with LLM-generated rationales that explicitly encode the latent query-knowledge relationship. To optimize the quality of these rationales, we employ Group Relative Policy Optimization (GRPO) and use retrieval similarity as a verifiable reward signal, enabling direct optimization of indexing decisions for retrieval effectiveness. Extensive experiments on the BRIGHT benchmark demonstrate that RL-Index consistently improves both retrieval and downstream question-answering performance, while significantly reducing online inference latency. Moreover, the learned rationale augmentation generalizes across diverse retrievers and generators, highlighting its robustness as a plug-and-play indexing strategy across different retrieval systems.