InfoAgent: Avanzando en Agentes Autónomos de Búsqueda de Información
InfoAgent: Advancing Autonomous Information-Seeking Agents
September 29, 2025
Autores: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo
cs.AI
Resumen
La construcción de agentes de Modelos de Lenguaje a Gran Escala (LLM) que amplían sus capacidades mediante la interacción con herramientas externas representa una nueva frontera en la investigación y aplicaciones de la inteligencia artificial. En este artículo, presentamos InfoAgent, un agente de investigación profunda impulsado por una innovadora tubería de síntesis de datos y herramientas de búsqueda web orquestadas. Para construir consultas desafiantes y difíciles de encontrar, construimos árboles de entidades y aplicamos muestreo de subárboles con difuminación de entidades para aumentar sistemáticamente la dificultad de las preguntas. A diferencia de trabajos anteriores que dependen en gran medida de herramientas de búsqueda comerciales, desarrollamos una infraestructura de búsqueda autohospedada dedicada, mejorando la transparencia de los entornos de los agentes y facilitando el avance adicional de la capacidad de los agentes. Evaluamos la efectividad de nuestra tubería de datos midiendo el número promedio de llamadas a herramientas requeridas para responder correctamente una pregunta, y también demostramos que nuestro agente obtiene un mejor rendimiento cuando está equipado con nuestras herramientas. Nuestro InfoAgent es post-entrenado a partir de Qwen3-14B utilizando una receta de dos etapas: ajuste fino supervisado de arranque en frío para inculcar comportamientos de búsqueda a largo plazo, seguido de aprendizaje por refuerzo que mejora significativamente el uso de herramientas impulsado por razonamiento. Con nuestros métodos, InfoAgent logra un 15.3% de precisión en BrowseComp, un 29.2% en BrowseComp-ZH y un 40.4% en Xbench-DS, superando a agentes de investigación profunda de código abierto anteriores como WebSailor-72B y DeepDive-32B.
English
Building Large Language Model agents that expand their capabilities by
interacting with external tools represents a new frontier in AI research and
applications. In this paper, we introduce InfoAgent, a deep research agent
powered by an innovative data synthesis pipeline and orchestrated web search
tools. To construct challenging, hard-to-find queries,we build entity trees and
apply sub-tree sampling with entity fuzzification to systematically increase
question difficulty. Unlike prior work that relies heavily on commercial search
tools, we develop a dedicated self-hosted search infrastructure, enhancing
transparency of agent environments and facilitating further advancement of
agent capacity. We evaluate the effectiveness of our data pipeline by measuring
the average number of tool calls required to correctly answer a question, and
also show that our agent yields better performance when equipped with our
tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage
recipe: cold-start supervised finetuning to instill long-horizon search
behaviors, followed by reinforcement learning which significantly improves
reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy
on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming
prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.