InfoAgent: Fortschrittliche autonome Informationssuchagenten
InfoAgent: Advancing Autonomous Information-Seeking Agents
September 29, 2025
papers.authors: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo
cs.AI
papers.abstract
Die Entwicklung von Large Language Model-Agenten, die ihre Fähigkeiten durch die Interaktion mit externen Tools erweitern, stellt eine neue Grenze in der KI-Forschung und -Anwendung dar. In diesem Artikel stellen wir InfoAgent vor, einen tiefgehenden Forschungsagenten, der durch eine innovative Daten-Synthese-Pipeline und orchestrierte Web-Such-Tools angetrieben wird. Um herausfordernde, schwer zu findende Abfragen zu konstruieren, erstellen wir Entitätsbäume und wenden Subtree-Sampling mit Entitäts-Fuzzifizierung an, um die Schwierigkeit der Fragen systematisch zu erhöhen. Im Gegensatz zu früheren Arbeiten, die stark auf kommerzielle Such-Tools angewiesen sind, entwickeln wir eine dedizierte, selbst gehostete Suchinfrastruktur, die die Transparenz der Agentenumgebungen verbessert und die Weiterentwicklung der Agentenkapazitäten erleichtert. Wir bewerten die Effektivität unserer Datenpipeline, indem wir die durchschnittliche Anzahl der Tool-Aufrufe messen, die erforderlich sind, um eine Frage korrekt zu beantworten, und zeigen auch, dass unser Agent mit unseren Tools eine bessere Leistung erzielt. Unser InfoAgent wird aus Qwen3-14B nachtrainiert, wobei ein zweistufiges Rezept verwendet wird: Kaltstart-Supervised-Finetuning, um langfristige Suchverhalten zu vermitteln, gefolgt von Reinforcement Learning, das den reasoning-gesteuerten Tool-Einsatz signifikant verbessert. Mit unseren Methoden erreicht InfoAgent eine Genauigkeit von 15,3 % auf BrowseComp, 29,2 % auf BrowseComp-ZH und 40,4 % auf Xbench-DS und übertrifft damit frühere Open-Source-Forschungsagenten wie WebSailor-72B und DeepDive-32B.
English
Building Large Language Model agents that expand their capabilities by
interacting with external tools represents a new frontier in AI research and
applications. In this paper, we introduce InfoAgent, a deep research agent
powered by an innovative data synthesis pipeline and orchestrated web search
tools. To construct challenging, hard-to-find queries,we build entity trees and
apply sub-tree sampling with entity fuzzification to systematically increase
question difficulty. Unlike prior work that relies heavily on commercial search
tools, we develop a dedicated self-hosted search infrastructure, enhancing
transparency of agent environments and facilitating further advancement of
agent capacity. We evaluate the effectiveness of our data pipeline by measuring
the average number of tool calls required to correctly answer a question, and
also show that our agent yields better performance when equipped with our
tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage
recipe: cold-start supervised finetuning to instill long-horizon search
behaviors, followed by reinforcement learning which significantly improves
reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy
on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming
prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.