Compreendendo os Comportamentos da Recuperação de Informação Ciente do Ambiente

Resumo

Abordagens recentes de geração aumentada por recuperação (RAG) demonstraram forte capacidade no tratamento de consultas complexas, mas as pesquisas atuais negligenciam um desafio crítico: diferentes recuperadores exigem estratégias de formulação de consultas fundamentalmente distintas para desempenho ideal. Neste trabalho, apresentamos a primeira análise sistemática de como LLMs podem aprender a adaptar suas estratégias de formulação de consultas para diferentes recuperadores por meio de aprendizado por reforço (RL). Nosso estudo empírico revela que o RL ensina efetivamente um LLM a adaptar suas consultas às características específicas do recuperador. Descobrimos que diferentes recuperadores exibem estilos de consulta ótimos surpreendentemente distintos (por exemplo, descritivo vs. semelhante a perguntas), sugerindo que estratégias aprendidas para um recuperador são ineficazes para outro. Mostramos ainda que o desempenho pode ser aprimorado incorporando orientação humana específica ao recuperador e escalando o tamanho do modelo. Para facilitar o aprendizado em trajetórias de múltiplas etapas de recuperação, introduzimos uma técnica de rollout baseada em ramificação que melhora a estabilidade do treinamento. Nosso trabalho fornece as primeiras evidências empíricas e insights acionáveis para construir sistemas RAG verdadeiramente conscientes do recuperador. Código e recursos estão disponíveis em https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.

English

Recent retrieval-augmented generation (RAG) approaches have demonstrated strong capability in handling complex queries, yet current research overlooks a critical challenge: different retrievers require fundamentally different query formulation strategies for optimal performance. In this work, we present the first systematic analysis of how LLMs can learn to adapt their query formulation strategies for different retrievers via reinforcement learning (RL). Our empirical study reveals that RL effectively teaches an LLM to tailor its queries to specific retriever characteristics. We discover that different retrievers exhibit surprisingly distinct optimal query styles (e.g., descriptive vs. question-like), suggesting strategies learned for one retriever ineffective for another. We further show that performance can be enhanced by incorporating retriever-specific human guidance and by scaling model size. To facilitate learning over multi-retrieval-step trajectories, we introduce a branching-based rollout technique that improves training stability. Our work provides the first empirical evidence and actionable insights for building truly retriever-aware RAG systems. Code and resources are available at https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.