WebLeaper: 情報豊富な探索を可能にすることでWebAgentの効率と有効性を強化
WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking
October 28, 2025
著者: Zhengwei Tao, Haiyang Shen, Baixuan Li, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Liwen Zhang, Xinyu Wang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
要旨
大規模言語モデル(LLM)ベースのエージェントは、オープンエンドな問題解決における革新的なアプローチとして登場し、情報探索(IS)は自律的推論と意思決定を可能にする中核的能力である。従来の研究は主に検索深度の向上に焦点を当ててきたが、現在のISエージェントは検索効率の低さに悩まされており、これが全体の性能を制約している。この非効率性の背景にある要因は、学習タスクにおける対象エンティティの希薄性であり、エージェントが効率的な検索行動を学習し一般化する機会を制限している。これらの課題に対処するため、我々は高カバレッジなISタスクを構築し、効率的な解決軌道を生成するフレームワークWebLeaperを提案する。ISを木構造の推論問題として定式化することで、制約のあるコンテキスト内に大幅に多くの対象エンティティを埋め込むことを可能にする。厳選されたWikipediaテーブルを活用し、Basic、Union、Reverse-Unionの3つのバリエーションを提案して、ISの効率性と有効性を体系的に高める。最後に、正確性と効率性を同時に満たす学習軌道のみを選別することで、モデルが正確性と検索性能の両方で最適化されることを保証する。5つのISベンチマーク(BrowserComp、GAIA、xbench-DeepSearch、WideSearch、Seal-0)を用いた基本設定と包括的設定での大規模実験により、本手法が強力なベースラインを上回る有効性と効率性の両方で一貫した改善を達成することを実証する。
English
Large Language Model (LLM)-based agents have emerged as a transformative
approach for open-ended problem solving, with information seeking (IS) being a
core capability that enables autonomous reasoning and decision-making. While
prior research has largely focused on improving retrieval depth, we observe
that current IS agents often suffer from low search efficiency, which in turn
constrains overall performance. A key factor underlying this inefficiency is
the sparsity of target entities in training tasks, which limits opportunities
for agents to learn and generalize efficient search behaviors. To address these
challenges, we propose WebLeaper, a framework for constructing high-coverage IS
tasks and generating efficient solution trajectories. We formulate IS as a
tree-structured reasoning problem, enabling a substantially larger set of
target entities to be embedded within a constrained context. Leveraging curated
Wikipedia tables, we propose three variants for synthesizing IS tasks, Basic,
Union, and Reverse-Union, to systematically increase both IS efficiency and
efficacy. Finally, we curate training trajectories by retaining only those that
are simultaneously accurate and efficient, ensuring that the model is optimized
for both correctness and search performance. Extensive experiments on both
basic and comprehensive settings, conducted on five IS benchmarks, BrowserComp,
GAIA, xbench-DeepSearch, WideSearch, and Seal-0, demonstrate that our method
consistently achieves improvements in both effectiveness and efficiency over
strong baselines.