ChatPaper.aiChatPaper

Apprendimento dell'Uso Annidato del Browser per la Ricerca di Informazioni Agente-Orientata

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
Autori: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Abstract

Gli agenti di ricerca di informazioni (IS) hanno ottenuto prestazioni solide in un'ampia gamma di compiti di ricerca estesi e approfonditi, tuttavia il loro utilizzo di strumenti rimane largamente limitato al recupero di snippet a livello API e al fetching di pagine basato su URL, limitando l'accesso alle informazioni più ricche disponibili attraverso la navigazione reale. Sebbene l'interazione completa con il browser potrebbe sbloccare capacità più profonde, il suo controllo granulare e i verbose ritorni di contenuto della pagina introducono una complessità sostanziale per gli agenti con chiamate di funzione in stile ReAct. Per colmare questa lacuna, proponiamo il Nested Browser-Use Learning (NestBrowse), che introduce un framework di azioni browser minimo e completo, disaccoppiando il controllo dell'interazione dall'esplorazione della pagina attraverso una struttura nidificata. Questo design semplifica il ragionamento agentico consentendo al contempo un'acquisizione efficace di informazioni dal deep web. I risultati empirici su benchmark impegnativi di IS profondo dimostrano che NestBrowse offre chiari vantaggi nella pratica. Ulteriori analisi approfondite ne sottolineano l'efficienza e la flessibilità.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF193March 11, 2026