ChatPaper.aiChatPaper

WebLeaper: 정보 탐색 기능 강화를 통한 웹 에이전트의 효율성 및 효과성 극대화

WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

October 28, 2025
저자: Zhengwei Tao, Haiyang Shen, Baixuan Li, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Liwen Zhang, Xinyu Wang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

초록

대규모 언어 모델(LLM) 기반 에이전트는 개방형 문제 해결을 위한 혁신적 접근법으로 부상했으며, 정보 탐색(IS)은 자율적 추론과 의사 결정을 가능하게 하는 핵심 능력이다. 기존 연구는 주로 검색 깊이 향상에 집중해왔으나, 현재 IS 에이전트는 낮은 검색 효율성으로 인해 전체 성능이 제한되는 경우가 많다. 이러한 비효율성의 주요 원인은 훈련 과제에서 목표 개체의 희소성으로, 에이전트가 효율적인 검색 행동을 학습하고 일반화할 기회가 제한되기 때문이다. 이러한 과제를 해결하기 위해 우리는 고범위 IS 과제 구축과 효율적인 해결 궤적 생성을 위한 WebLeaper 프레임워크를 제안한다. 우리는 IS를 트리 구조 추론 문제로 공식화하여 제한된 컨텍스트 내에 훨씬 더 많은 수의 목표 개체를 포함할 수 있도록 한다. 정제된 위키피디아 테이블을 활용하여 기본, 통합, 역통합의 세 가지 IS 과제 합성 변형을 제안함으로써 IS 효율성과 효과성을 체계적으로 향상시킨다. 마지막으로 정확성과 검색 성능을 모두 최적화하기 위해 동시에 정확하고 효율적인 훈련 궤적만을 선별한다. 다섯 가지 IS 벤치마크(BrowserComp, GAIA, xbench-DeepSearch, WideSearch, Seal-0)에서 기본 및 포괄적 설정에 대한 광범위한 실험을 통해 우리 방법이 강력한 베이스라인 대비 효과성과 효율성 모두에서 지속적으로 향상을 달성함을 입증한다.
English
Large Language Model (LLM)-based agents have emerged as a transformative approach for open-ended problem solving, with information seeking (IS) being a core capability that enables autonomous reasoning and decision-making. While prior research has largely focused on improving retrieval depth, we observe that current IS agents often suffer from low search efficiency, which in turn constrains overall performance. A key factor underlying this inefficiency is the sparsity of target entities in training tasks, which limits opportunities for agents to learn and generalize efficient search behaviors. To address these challenges, we propose WebLeaper, a framework for constructing high-coverage IS tasks and generating efficient solution trajectories. We formulate IS as a tree-structured reasoning problem, enabling a substantially larger set of target entities to be embedded within a constrained context. Leveraging curated Wikipedia tables, we propose three variants for synthesizing IS tasks, Basic, Union, and Reverse-Union, to systematically increase both IS efficiency and efficacy. Finally, we curate training trajectories by retaining only those that are simultaneously accurate and efficient, ensuring that the model is optimized for both correctness and search performance. Extensive experiments on both basic and comprehensive settings, conducted on five IS benchmarks, BrowserComp, GAIA, xbench-DeepSearch, WideSearch, and Seal-0, demonstrate that our method consistently achieves improvements in both effectiveness and efficiency over strong baselines.
PDF202December 1, 2025