ChatPaper.aiChatPaper

Aprendizaje de Uso de Navegador Anidado para la Búsqueda de Información Agéntica

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
Autores: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Resumen

Los agentes de búsqueda de información (IS) han logrado un rendimiento sólido en diversas tareas de búsqueda amplia y profunda, aunque su uso de herramientas sigue limitado principalmente a la recuperación de fragmentos a nivel de API y la obtención de páginas basada en URL, lo que restringe el acceso a la información más rica disponible mediante la navegación real. Si bien la interacción completa con el navegador podría desbloquear capacidades más profundas, su control de grano fino y las respuestas de contenido de página detalladas introducen una complejidad sustancial para los agentes de llamada a funciones estilo ReAct. Para cerrar esta brecha, proponemos el Aprendizaje de Uso de Navegador Anidado (NestBrowse), que introduce un marco de acciones de navegador mínimo y completo que desacopla el control de la interacción de la exploración de páginas mediante una estructura anidada. Este diseño simplifica el razonamiento agéntico al tiempo que permite una adquisición efectiva de información de la web profunda. Los resultados empíricos en benchmarks desafiantes de IS profunda demuestran que NestBrowse ofrece beneficios claros en la práctica. Análisis más profundos subrayan su eficiencia y flexibilidad.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF71December 31, 2025