ChatPaper.aiChatPaper

Apprentissage de l'utilisation de navigateurs imbriqués pour la recherche d'information agentique

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
papers.authors: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

papers.abstract

Les agents de recherche d'information (IS) ont démontré des performances solides sur une gamme étendue de tâches de recherche large et profonde. Cependant, leur utilisation d'outils reste largement limitée à la récupération d'extraits via des API et à l'obtention de pages via des URL, ce qui restreint l'accès aux informations plus riches disponibles via une navigation réelle. Bien que l'interaction complète avec un navigateur pourrait débloquer des capacités plus approfondies, son contrôle fin et les retours verbeux du contenu des pages introduisent une complexité substantielle pour les agents à appels de fonction de type ReAct. Pour combler cette lacune, nous proposons l'Apprentissage d'Utilisation de Navigateur Imbriqué (NestBrowse), qui introduit un cadre d'actions navigateur minimal et complet, découplant le contrôle de l'interaction de l'exploration des pages grâce à une structure imbriquée. Cette conception simplifie le raisonnement agent tout en permettant une acquisition efficace d'information du web profond. Les résultats empiriques sur des benchmarks exigeants de recherche approfondie démontrent que NestBrowse offre des avantages nets en pratique. Des analyses plus approfondies soulignent son efficacité et sa flexibilité.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF71December 31, 2025