ChatPaper.aiChatPaper

WebLeaper: Steigerung von Effizienz und Effektivität in WebAgents durch ermöglichte informationsreiche Suche

WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

October 28, 2025
papers.authors: Zhengwei Tao, Haiyang Shen, Baixuan Li, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Liwen Zhang, Xinyu Wang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

papers.abstract

Auf großen Sprachmodellen (LLM) basierende Agenten haben sich als ein transformativer Ansatz für die Lösung offener Probleme erwiesen, wobei die Informationsbeschaffung (Information Seeking, IS) eine Kernfähigkeit darstellt, die autonomes Denken und Entscheidungsfindung ermöglicht. Während sich frühere Forschung weitgehend auf die Verbesserung der Retrieval-Tiefe konzentrierte, stellen wir fest, dass aktuelle IS-Agenten oft unter geringer Such-Effizienz leiden, was wiederum die Gesamtleistung beeinträchtigt. Ein wesentlicher Faktor für diese Ineffizienz ist die geringe Dichte von Ziel-Entitäten in Trainingsaufgaben, was die Möglichkeiten der Agenten einschränkt, effiziente Suchverhalten zu erlernen und zu verallgemeinern. Um diese Herausforderungen zu adressieren, schlagen wir WebLeaper vor, ein Framework zur Konstruktion von IS-Aufgaben mit hoher Abdeckung und zur Generierung effizienter Lösungsverläufe. Wir formulieren IS als ein baumstrukturiertes Denkproblem, wodurch eine wesentlich größere Anzahl von Ziel-Entitäten in einem begrenzten Kontext eingebettet werden kann. Unter Nutzung kuratierter Wikipedia-Tabellen schlagen wir drei Varianten zur Synthese von IS-Aufgaben vor – Basic, Union und Reverse-Union –, um systematisch sowohl die IS-Effizienz als auch die Wirksamkeit zu steigern. Abschließend kuratieren wir Trainingsverläufe, indem wir nur jene beibehalten, die gleichzeitig präzise und effizient sind, um sicherzustellen, dass das Modell sowohl auf Korrektheit als auch auf Suchleistung optimiert wird. Umfangreiche Experimente in einfachen und umfassenden Szenarien, durchgeführt auf fünf IS-Benchmarks (BrowserComp, GAIA, xbench-DeepSearch, WideSearch und Seal-0), demonstrieren, dass unsere Methode durchgängig Verbesserungen sowohl in der Effektivität als auch in der Effizienz gegenüber starken Baseline-Methoden erzielt.
English
Large Language Model (LLM)-based agents have emerged as a transformative approach for open-ended problem solving, with information seeking (IS) being a core capability that enables autonomous reasoning and decision-making. While prior research has largely focused on improving retrieval depth, we observe that current IS agents often suffer from low search efficiency, which in turn constrains overall performance. A key factor underlying this inefficiency is the sparsity of target entities in training tasks, which limits opportunities for agents to learn and generalize efficient search behaviors. To address these challenges, we propose WebLeaper, a framework for constructing high-coverage IS tasks and generating efficient solution trajectories. We formulate IS as a tree-structured reasoning problem, enabling a substantially larger set of target entities to be embedded within a constrained context. Leveraging curated Wikipedia tables, we propose three variants for synthesizing IS tasks, Basic, Union, and Reverse-Union, to systematically increase both IS efficiency and efficacy. Finally, we curate training trajectories by retaining only those that are simultaneously accurate and efficient, ensuring that the model is optimized for both correctness and search performance. Extensive experiments on both basic and comprehensive settings, conducted on five IS benchmarks, BrowserComp, GAIA, xbench-DeepSearch, WideSearch, and Seal-0, demonstrate that our method consistently achieves improvements in both effectiveness and efficiency over strong baselines.
PDF202December 1, 2025