InfoAgent: Avanzamento degli Agenti Autonomi per la Ricerca di Informazioni
InfoAgent: Advancing Autonomous Information-Seeking Agents
September 29, 2025
Autori: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo
cs.AI
Abstract
La costruzione di agenti basati su modelli linguistici di grandi dimensioni che espandono le proprie capacità interagendo con strumenti esterni rappresenta una nuova frontiera nella ricerca e nelle applicazioni dell'IA. In questo articolo, presentiamo InfoAgent, un agente di ricerca avanzato alimentato da una pipeline innovativa di sintesi dei dati e orchestrato con strumenti di ricerca web. Per costruire query complesse e difficili da trovare, creiamo alberi di entità e applichiamo il campionamento di sotto-alberi con fuzzificazione delle entità per aumentare sistematicamente la difficoltà delle domande. A differenza dei lavori precedenti che si basano pesantemente su strumenti di ricerca commerciali, sviluppiamo un'infrastruttura di ricerca self-hosted dedicata, migliorando la trasparenza degli ambienti degli agenti e facilitando ulteriori progressi nella capacità degli agenti. Valutiamo l'efficacia della nostra pipeline di dati misurando il numero medio di chiamate agli strumenti necessarie per rispondere correttamente a una domanda e dimostriamo anche che il nostro agente ottiene prestazioni migliori quando equipaggiato con i nostri strumenti. Il nostro InfoAgent è post-addestrato a partire da Qwen3-14B utilizzando una ricetta in due fasi: un fine-tuning supervisionato in modalità cold-start per instillare comportamenti di ricerca a lungo termine, seguito da apprendimento per rinforzo che migliora significativamente l'uso degli strumenti guidati dal ragionamento. Con i nostri metodi, InfoAgent raggiunge un'accuratezza del 15,3\% su BrowseComp, del 29,2\% su BrowseComp-ZH e del 40,4\% su Xbench-DS, superando i precedenti agenti di ricerca avanzati open-source come WebSailor-72B e DeepDive-32B.
English
Building Large Language Model agents that expand their capabilities by
interacting with external tools represents a new frontier in AI research and
applications. In this paper, we introduce InfoAgent, a deep research agent
powered by an innovative data synthesis pipeline and orchestrated web search
tools. To construct challenging, hard-to-find queries,we build entity trees and
apply sub-tree sampling with entity fuzzification to systematically increase
question difficulty. Unlike prior work that relies heavily on commercial search
tools, we develop a dedicated self-hosted search infrastructure, enhancing
transparency of agent environments and facilitating further advancement of
agent capacity. We evaluate the effectiveness of our data pipeline by measuring
the average number of tool calls required to correctly answer a question, and
also show that our agent yields better performance when equipped with our
tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage
recipe: cold-start supervised finetuning to instill long-horizon search
behaviors, followed by reinforcement learning which significantly improves
reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy
on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming
prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.