InfoAgent: Avançando Agentes Autônomos de Busca de Informação
InfoAgent: Advancing Autonomous Information-Seeking Agents
September 29, 2025
Autores: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo
cs.AI
Resumo
A construção de agentes de Modelos de Linguagem de Grande Escala (LLM) que expandem suas capacidades por meio da interação com ferramentas externas representa uma nova fronteira na pesquisa e aplicações de IA. Neste artigo, apresentamos o InfoAgent, um agente de pesquisa profunda impulsionado por um pipeline inovador de síntese de dados e ferramentas de busca na web orquestradas. Para construir consultas desafiadoras e difíceis de encontrar, construímos árvores de entidades e aplicamos amostragem de subárvores com fuzzificação de entidades para aumentar sistematicamente a dificuldade das perguntas. Diferente de trabalhos anteriores que dependem fortemente de ferramentas de busca comerciais, desenvolvemos uma infraestrutura de busca auto-hospedada dedicada, aumentando a transparência dos ambientes dos agentes e facilitando o avanço adicional da capacidade dos agentes. Avaliamos a eficácia do nosso pipeline de dados medindo o número médio de chamadas de ferramentas necessárias para responder corretamente a uma pergunta, e também mostramos que nosso agente apresenta melhor desempenho quando equipado com nossas ferramentas. Nosso InfoAgent é pós-treinado a partir do Qwen3-14B usando uma receita de duas etapas: ajuste fino supervisionado de partida a frio para incutir comportamentos de busca de longo horizonte, seguido de aprendizado por reforço que melhora significativamente o uso de ferramentas orientadas por raciocínio. Com nossos métodos, o InfoAgent alcança 15,3% de precisão no BrowseComp, 29,2% no BrowseComp-ZH e 40,4% no Xbench-DS, superando agentes de pesquisa profunda de código aberto anteriores, como o WebSailor-72B e o DeepDive-32B.
English
Building Large Language Model agents that expand their capabilities by
interacting with external tools represents a new frontier in AI research and
applications. In this paper, we introduce InfoAgent, a deep research agent
powered by an innovative data synthesis pipeline and orchestrated web search
tools. To construct challenging, hard-to-find queries,we build entity trees and
apply sub-tree sampling with entity fuzzification to systematically increase
question difficulty. Unlike prior work that relies heavily on commercial search
tools, we develop a dedicated self-hosted search infrastructure, enhancing
transparency of agent environments and facilitating further advancement of
agent capacity. We evaluate the effectiveness of our data pipeline by measuring
the average number of tool calls required to correctly answer a question, and
also show that our agent yields better performance when equipped with our
tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage
recipe: cold-start supervised finetuning to instill long-horizon search
behaviors, followed by reinforcement learning which significantly improves
reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy
on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming
prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.