Aprendizado de Uso de Navegador Aninhado para Busca de Informações Agentes
Nested Browser-Use Learning for Agentic Information Seeking
December 29, 2025
Autores: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
Resumo
Os agentes de busca de informação (IS) alcançaram um desempenho sólido em diversas tarefas de busca ampla e profunda, mas seu uso de ferramentas permanece restrito principalmente à recuperação de snippets em nível de API e à obtenção de páginas baseada em URL, limitando o acesso às informações mais ricas disponíveis por meio da navegação real. Embora a interação completa com o navegador possa desbloquear capacidades mais profundas, seu controle refinado e retornos verbosos de conteúdo de página introduzem complexidade substancial para agentes de chamada de função no estilo ReAct. Para preencher essa lacuna, propomos o Nested Browser-Use Learning (NestBrowse), que introduz uma estrutura mínima e completa de ações do navegador, desacoplando o controle de interação da exploração de páginas por meio de uma estrutura aninhada. Este design simplifica o raciocínio do agente, permitindo uma aquisição eficaz de informações da deep web. Resultados empíricos em benchmarks desafiadores de IS profunda demonstram que o NestBrowse oferece benefícios claros na prática. Análises mais aprofundadas ressaltam sua eficiência e flexibilidade.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.