Изучение поведения информационного поиска с учётом окружающей среды

Аннотация

Недавние подходы на основе генерации с дополнением результатов поиска (RAG) продемонстрировали высокую эффективность при обработке сложных запросов, однако современные исследования упускают из виду критическую проблему: для достижения оптимальной производительности различные системы поиска требуют принципиально разных стратегий формулирования запросов. В данной работе мы впервые проводим систематический анализ того, как большие языковые модели (LLM) могут научиться адаптировать свои стратегии формулирования запросов под различные поисковые системы с помощью обучения с подкреплением (RL). Наше эмпирическое исследование показывает, что RL эффективно обучает LLM подстраивать запросы под конкретные характеристики поисковых систем. Мы обнаружили, что разные поисковые системы демонстрируют удивительно разные оптимальные стили запросов (например, описательные в сравнении с вопросительными), что указывает на неэффективность стратегий, разработанных для одной системы, при применении к другой. Далее мы демонстрируем, что производительность может быть улучшена за счет включения специфичных для поисковых систем рекомендаций от человека и увеличения размера модели. Для облегчения обучения на траекториях с несколькими шагами поиска мы вводим технику развертки на основе ветвления, которая повышает стабильность обучения. Наша работа представляет первые эмпирические доказательства и практически применимые идеи для построения действительно осведомленных о поисковых системах RAG-систем. Код и ресурсы доступны по адресу https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.

English

Recent retrieval-augmented generation (RAG) approaches have demonstrated strong capability in handling complex queries, yet current research overlooks a critical challenge: different retrievers require fundamentally different query formulation strategies for optimal performance. In this work, we present the first systematic analysis of how LLMs can learn to adapt their query formulation strategies for different retrievers via reinforcement learning (RL). Our empirical study reveals that RL effectively teaches an LLM to tailor its queries to specific retriever characteristics. We discover that different retrievers exhibit surprisingly distinct optimal query styles (e.g., descriptive vs. question-like), suggesting strategies learned for one retriever ineffective for another. We further show that performance can be enhanced by incorporating retriever-specific human guidance and by scaling model size. To facilitate learning over multi-retrieval-step trajectories, we introduce a branching-based rollout technique that improves training stability. Our work provides the first empirical evidence and actionable insights for building truly retriever-aware RAG systems. Code and resources are available at https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.