InfoAgent: 자율 정보 탐색 에이전트의 발전
InfoAgent: Advancing Autonomous Information-Seeking Agents
September 29, 2025
저자: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo
cs.AI
초록
외부 도구와 상호작용하여 능력을 확장하는 대형 언어 모델 에이전트를 구축하는 것은 AI 연구와 응용 분야에서 새로운 전선을 열고 있습니다. 본 논문에서는 혁신적인 데이터 합성 파이프라인과 조율된 웹 검색 도구로 구동되는 심층 연구 에이전트인 InfoAgent를 소개합니다. 도전적이고 찾기 어려운 쿼리를 구성하기 위해, 우리는 엔티티 트리를 구축하고 엔티티 퍼지화를 적용한 서브트리 샘플링을 통해 질문의 난이도를 체계적으로 높입니다. 상용 검색 도구에 크게 의존하는 기존 연구와 달리, 우리는 전용 자체 호스팅 검색 인프라를 개발하여 에이전트 환경의 투명성을 높이고 에이전트 능력의 추가 발전을 촉진합니다. 우리는 데이터 파이프라인의 효과를 평가하기 위해 질문에 올바르게 답변하기 위해 필요한 평균 도구 호출 횟수를 측정하고, 또한 우리의 도구를 장착했을 때 에이전트의 성능이 더 우수함을 보여줍니다. 우리의 InfoAgent는 Qwen3-14B를 기반으로 두 단계의 레시피를 통해 사후 학습됩니다: 장기적인 검색 행동을 심어주기 위한 콜드 스타트 지도 미세 조정과, 추론 기반 도구 사용을 크게 개선하는 강화 학습입니다. 우리의 방법을 통해 InfoAgent는 BrowseComp에서 15.3%, BrowseComp-ZH에서 29.2%, Xbench-DS에서 40.4%의 정확도를 달성하며, WebSailor-72B 및 DeepDive-32B와 같은 기존의 오픈소스 심층 연구 에이전트를 능가합니다.
English
Building Large Language Model agents that expand their capabilities by
interacting with external tools represents a new frontier in AI research and
applications. In this paper, we introduce InfoAgent, a deep research agent
powered by an innovative data synthesis pipeline and orchestrated web search
tools. To construct challenging, hard-to-find queries,we build entity trees and
apply sub-tree sampling with entity fuzzification to systematically increase
question difficulty. Unlike prior work that relies heavily on commercial search
tools, we develop a dedicated self-hosted search infrastructure, enhancing
transparency of agent environments and facilitating further advancement of
agent capacity. We evaluate the effectiveness of our data pipeline by measuring
the average number of tool calls required to correctly answer a question, and
also show that our agent yields better performance when equipped with our
tools. Our InfoAgent is post-trained from Qwen3-14B using a two-stage
recipe: cold-start supervised finetuning to instill long-horizon search
behaviors, followed by reinforcement learning which significantly improves
reasoning-driven tool use. With our methods, InfoAgent achieves 15.3\% accuracy
on BrowseComp, 29.2\% on BrowseComp-ZH, and 40.4\% on Xbench-DS, outperforming
prior open-source deep research agents such as WebSailor-72B and DeepDive-32B.