Verschachteltes Browser-Nutzungslernen für agentisches Informationssuchen
Nested Browser-Use Learning for Agentic Information Seeking
December 29, 2025
papers.authors: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
Informationssuchende (IS) Agenten haben bereits beeindruckende Leistungen bei einer Vielzahl von breiten und tiefgehenden Suchaufgaben gezeigt, doch ihre Werkzeugnutzung beschränkt sich weitgehend auf API-basierte Snippet-Abrufe und URL-gestütztes Seitenladen. Dies limitiert den Zugang zu den umfangreicheren Informationen, die durch tatsächliches Browsen verfügbar sind. Während vollständige Browserinteraktion tiefgreifendere Fähigkeiten freisetzen könnte, führen ihre feingranulare Steuerung und umfangreichen Seiteninhaltsrückgaben erhebliche Komplexität für ReAct-artige Funktionsaufruf-Agenten ein. Um diese Lücke zu schließen, schlagen wir Nested Browser-Use Learning (NestBrowse) vor, welches ein minimales und vollständiges Browser-Aktions-Framework einführt. Dieses entkoppelt durch eine verschachtelte Struktur Interaktionssteuerung von Seitenexploration. Dieses Design vereinfacht agentenbasiertes Reasoning und ermöglicht gleichzeitig eine effektive Erschließung von Deep-Web-Informationen. Empirische Ergebnisse auf anspruchsvollen Deep-IS-Benchmarks belegen, dass NestBrowse klare praktische Vorteile bietet. Vertiefende Analysen unterstreichen zudem seine Effizienz und Flexibilität.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.