ChatPaper.aiChatPaper

WebLeaper: Verbetering van Efficiëntie en Effectiviteit in WebAgent door Inforijke Zoektochten Mogelijk te Maken

WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

October 28, 2025
Auteurs: Zhengwei Tao, Haiyang Shen, Baixuan Li, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Liwen Zhang, Xinyu Wang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Samenvatting

Op Large Language Models (LLM) gebaseerde agents zijn naar voren gekomen als een transformerende aanpak voor het oplossen van open-einde problemen, waarbij informatiezoeken (Information Seeking, IS) een kerncapaciteit is die autonoom redeneren en besluitvorming mogelijk maakt. Hoewel eerder onderzoek zich grotendeels heeft gericht op het verbeteren van de retrievalscherpte, merken wij op dat huidige IS-agents vaak lijden onder lage zoekefficiëntie, wat op zijn beurt de algehele prestaties beperkt. Een belangrijke onderliggende factor voor deze inefficiëntie is de schaarste van doelentiteiten in trainings taken, wat de mogelijkheden voor agents om efficiënt zoekgedrag aan te leren en te generaliseren beperkt. Om deze uitdagingen aan te pakken, stellen wij WebLeaper voor, een raamwerk voor het construeren van IS-taken met hoge dekking en het genereren van efficiënte oplossingstrajecten. Wij formuleren IS als een boomgestructureerd redeneerprobleem, waardoor een aanzienlijk grotere set doelentiteiten in een beperkte context kan worden ingebed. Gebruikmakend van gecureerde Wikipedia-tabellen, stellen wij drie varianten voor om IS-taken te synthetiseren: Basic, Union en Reverse-Union, om systematisch zowel de IS-efficiëntie als de effectiviteit te vergroten. Ten slotte cureren wij trainings trajecten door alleen die trajecten te behouden die tegelijkertijd accuraat en efficiënt zijn, zodat het model geoptimaliseerd wordt voor zowel correctheid als zoekprestaties. Uitgebreide experimenten in zowel basis- als uitgebreide settings, uitgevoerd op vijf IS benchmarks (BrowserComp, GAIA, xbench-DeepSearch, WideSearch en Seal-0), tonen aan dat onze methode consistent verbeteringen bereikt in zowel effectiviteit als efficiëntie ten opzichte van sterke baseline methoden.
English
Large Language Model (LLM)-based agents have emerged as a transformative approach for open-ended problem solving, with information seeking (IS) being a core capability that enables autonomous reasoning and decision-making. While prior research has largely focused on improving retrieval depth, we observe that current IS agents often suffer from low search efficiency, which in turn constrains overall performance. A key factor underlying this inefficiency is the sparsity of target entities in training tasks, which limits opportunities for agents to learn and generalize efficient search behaviors. To address these challenges, we propose WebLeaper, a framework for constructing high-coverage IS tasks and generating efficient solution trajectories. We formulate IS as a tree-structured reasoning problem, enabling a substantially larger set of target entities to be embedded within a constrained context. Leveraging curated Wikipedia tables, we propose three variants for synthesizing IS tasks, Basic, Union, and Reverse-Union, to systematically increase both IS efficiency and efficacy. Finally, we curate training trajectories by retaining only those that are simultaneously accurate and efficient, ensuring that the model is optimized for both correctness and search performance. Extensive experiments on both basic and comprehensive settings, conducted on five IS benchmarks, BrowserComp, GAIA, xbench-DeepSearch, WideSearch, and Seal-0, demonstrate that our method consistently achieves improvements in both effectiveness and efficiency over strong baselines.
PDF202December 1, 2025