InfoAgent: Avanzando en Agentes Autónomos de Búsqueda de Información

Resumen

La construcción de agentes de Modelos de Lenguaje a Gran Escala (LLM) que amplían sus capacidades mediante la interacción con herramientas externas representa una nueva frontera en la investigación y aplicaciones de la inteligencia artificial. En este artículo, presentamos InfoAgent, un agente de investigación profunda impulsado por una innovadora tubería de síntesis de datos y herramientas de búsqueda web orquestadas. Para construir consultas desafiantes y difíciles de encontrar, construimos árboles de entidades y aplicamos muestreo de subárboles con difuminación de entidades para aumentar sistemáticamente la dificultad de las preguntas. A diferencia de trabajos anteriores que dependen en gran medida de herramientas de búsqueda comerciales, desarrollamos una infraestructura de búsqueda autohospedada dedicada, mejorando la transparencia de los entornos de los agentes y facilitando el avance adicional de la capacidad de los agentes. Evaluamos la efectividad de nuestra tubería de datos midiendo el número promedio de llamadas a herramientas requeridas para responder correctamente una pregunta, y también demostramos que nuestro agente obtiene un mejor rendimiento cuando está equipado con nuestras herramientas. Nuestro InfoAgent es post-entrenado a partir de Qwen3-14B utilizando una receta de dos etapas: ajuste fino supervisado de arranque en frío para inculcar comportamientos de búsqueda a largo plazo, seguido de aprendizaje por refuerzo que mejora significativamente el uso de herramientas impulsado por razonamiento. Con nuestros métodos, InfoAgent logra un 15.3% de precisión en BrowseComp, un 29.2% en BrowseComp-ZH y un 40.4% en Xbench-DS, superando a agentes de investigación profunda de código abierto anteriores como WebSailor-72B y DeepDive-32B.

English

Building Large Language Model agents that expand their capabilities by interacting with external tools represents a new frontier in AI research and applications. In this paper, we introduce InfoAgent, a deep research agent powered by an innovative data synthesis pipeline and orchestrated web search tools. To construct challenging, hard-to-find queries,we build entity trees and apply sub-tree sampling with entity fuzzification to systematically increase question difficulty. Unlike prior work that relies heavily on commercial search tools, we develop a dedicated self-hosted search infrastructure, enhancing transparency of agent environments and facilitating further advancement of agent capacity. We evaluate the effectiveness of our data pipeline by measuring the average number of tool calls required to correctly answer a question, and also show that our agent yields better performance when equipped with our tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage recipe: cold-start supervised finetuning to instill long-horizon search behaviors, followed by reinforcement learning which significantly improves reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.

InfoAgent: Avanzando en Agentes Autónomos de Búsqueda de Información

InfoAgent: Advancing Autonomous Information-Seeking Agents

Resumen

Support