InfoAgent: Avanzamento degli Agenti Autonomi per la Ricerca di Informazioni

Abstract

La costruzione di agenti basati su modelli linguistici di grandi dimensioni che espandono le proprie capacità interagendo con strumenti esterni rappresenta una nuova frontiera nella ricerca e nelle applicazioni dell'IA. In questo articolo, presentiamo InfoAgent, un agente di ricerca avanzato alimentato da una pipeline innovativa di sintesi dei dati e orchestrato con strumenti di ricerca web. Per costruire query complesse e difficili da trovare, creiamo alberi di entità e applichiamo il campionamento di sotto-alberi con fuzzificazione delle entità per aumentare sistematicamente la difficoltà delle domande. A differenza dei lavori precedenti che si basano pesantemente su strumenti di ricerca commerciali, sviluppiamo un'infrastruttura di ricerca self-hosted dedicata, migliorando la trasparenza degli ambienti degli agenti e facilitando ulteriori progressi nella capacità degli agenti. Valutiamo l'efficacia della nostra pipeline di dati misurando il numero medio di chiamate agli strumenti necessarie per rispondere correttamente a una domanda e dimostriamo anche che il nostro agente ottiene prestazioni migliori quando equipaggiato con i nostri strumenti. Il nostro InfoAgent è post-addestrato a partire da Qwen3-14B utilizzando una ricetta in due fasi: un fine-tuning supervisionato in modalità cold-start per instillare comportamenti di ricerca a lungo termine, seguito da apprendimento per rinforzo che migliora significativamente l'uso degli strumenti guidati dal ragionamento. Con i nostri metodi, InfoAgent raggiunge un'accuratezza del 15,3\% su BrowseComp, del 29,2\% su BrowseComp-ZH e del 40,4\% su Xbench-DS, superando i precedenti agenti di ricerca avanzati open-source come WebSailor-72B e DeepDive-32B.

English

Building Large Language Model agents that expand their capabilities by interacting with external tools represents a new frontier in AI research and applications. In this paper, we introduce InfoAgent, a deep research agent powered by an innovative data synthesis pipeline and orchestrated web search tools. To construct challenging, hard-to-find queries,we build entity trees and apply sub-tree sampling with entity fuzzification to systematically increase question difficulty. Unlike prior work that relies heavily on commercial search tools, we develop a dedicated self-hosted search infrastructure, enhancing transparency of agent environments and facilitating further advancement of agent capacity. We evaluate the effectiveness of our data pipeline by measuring the average number of tool calls required to correctly answer a question, and also show that our agent yields better performance when equipped with our tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage recipe: cold-start supervised finetuning to instill long-horizon search behaviors, followed by reinforcement learning which significantly improves reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.

InfoAgent: Avanzamento degli Agenti Autonomi per la Ricerca di Informazioni

InfoAgent: Advancing Autonomous Information-Seeking Agents

Abstract

Support