Geneste Browsergebruiksleren voor Agentgericht Informatie Zoeken
Nested Browser-Use Learning for Agentic Information Seeking
December 29, 2025
Auteurs: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
Samenvatting
Informatiezoekende (IS) agenten hebben sterke prestaties geleverd bij een reeks brede en diepe zoektaken, maar hun gereedschapsgebruik blijft grotendeels beperkt tot API-niveau snippet-retrieval en URL-gebaseerd ophalen van pagina's. Dit beperkt de toegang tot de rijkere informatie die beschikbaar is via echt browsen. Hoewel volledige browserinteractie diepere mogelijkheden zou kunnen ontsluiten, introduceren de fijnmazige controle en uitgebreide pagina-inhoud die het retourneert aanzienlijke complexiteit voor ReAct-stijl agenten die functie-aanroepen gebruiken. Om deze kloof te overbruggen, stellen we Nested Browser-Use Learning (NestBrowse) voor, dat een minimaal en compleet browser-actieframework introduceert. Dit framework ontkoppelt interactiecontrole van pagina-exploratie door een geneste structuur. Dit ontwerp vereenvoudigt de redenering van de agent en maakt tegelijkertijd effectieve verwerving van informatie uit het deep web mogelijk. Empirische resultaten op uitdagende diepe IS-ijkpunten tonen aan dat NestBrowse duidelijke voordelen biedt in de praktijk. Verdere diepgaande analyses onderstrepen de efficiëntie en flexibiliteit ervan.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.