Agente-R: Aprendendo a Recuperar Informações para Buscas Autônomas

Resumo

A busca agentiva surgiu recentemente como um paradigma poderoso, no qual um agente intercala raciocínio de múltiplos passos com recuperação de informações sob demanda para resolver questões complexas. Apesar do seu sucesso, a forma de conceber um mecanismo de recuperação para a busca agentiva permanece largamente inexplorada. Os agentes de busca existentes normalmente dependem de mecanismos baseados em similaridade, embora passagens semelhantes nem sempre sejam úteis para a geração da resposta final. Neste artigo, propomos uma nova estrutura de treinamento de mecanismos de recuperação específica para a busca agentiva. Diferente dos mecanismos concebidos para Geração Aumentada por Recuperação (RAG) de turno único, que dependem apenas da utilidade local da passagem, propomos usar tanto a relevância local consulta-passa quanto a correção global da resposta para medir a utilidade da passagem numa busca agentiva de múltltiplos turnos. Introduzimos ainda uma estratégia de treinamento iterativo, na qual o agente de busca e o mecanismo de recuperação são otimizados bidirecional e iterativamente. Diferente dos mecanismos de RAG, que são treinados apenas uma vez com perguntas fixas, o nosso mecanismo é continuamente melhorado usando consultas evolutivas e de maior qualidade provenientes do agente. Extensos experimentos em sete benchmarks de QA (single-hop e multi-hop) demonstram que o nosso mecanismo de recuperação, denominado , supera consistentemente bases de comparação robustas em diferentes agentes de busca. Os nossos códigos estão disponíveis em: https://github.com/8421BCD/Agentic-R.

English

Agentic search has recently emerged as a powerful paradigm, where an agent interleaves multi-step reasoning with on-demand retrieval to solve complex questions. Despite its success, how to design a retriever for agentic search remains largely underexplored. Existing search agents typically rely on similarity-based retrievers, while similar passages are not always useful for final answer generation. In this paper, we propose a novel retriever training framework tailored for agentic search. Unlike retrievers designed for single-turn retrieval-augmented generation (RAG) that only rely on local passage utility, we propose to use both local query-passage relevance and global answer correctness to measure passage utility in a multi-turn agentic search. We further introduce an iterative training strategy, where the search agent and the retriever are optimized bidirectionally and iteratively. Different from RAG retrievers that are only trained once with fixed questions, our retriever is continuously improved using evolving and higher-quality queries from the agent. Extensive experiments on seven single-hop and multi-hop QA benchmarks demonstrate that our retriever, termed , consistently outperforms strong baselines across different search agents. Our codes are available at: https://github.com/8421BCD/Agentic-R.