ChatPaper.aiChatPaper

Вложенное обучение использованию браузера для активного поиска информации

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
Авторы: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Аннотация

Агенты поиска информации демонстрируют высокую производительность в широком спектре задач поиска различной глубины и широты охвата, однако использование ими инструментов по-прежнему в основном ограничивается извлечением сниппетов через API и загрузкой страниц по URL-адресам, что сужает доступ к более богатой информации, доступной при реальном веб-сёрфинге. Хотя полное взаимодействие с браузером могло бы раскрыть более глубокие возможности, его детализированное управление и возврат объёмного контента страниц создают значительную сложность для агентов, работающих в стиле ReAct с вызовом функций. Для преодоления этого разрыва мы предлагаем Nested Browser-Use Learning (NestBrowse) — минималистичную и завершённую систему браузерных действий, которая разделяет управление взаимодействием и исследование страниц с помощью вложенной структуры. Данная архитектура упрощает агентское планирование, одновременно обеспечивая эффективное получение информации из глубины сети. Эмпирические результаты на сложных бенчмарках глубинного поиска информации показывают, что NestBrowse даёт явные практические преимущества. Детальный анализ дополнительно подчёркивает его эффективность и гибкость.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF71December 31, 2025