BrowserAgent: Construindo Agentes Web com Ações de Navegação Inspiradas no Comportamento Humano
BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
October 12, 2025
Autores: Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen
cs.AI
Resumo
Resolver problemas do mundo real de forma eficiente com LLMs depende cada vez mais de sua capacidade de interagir com ambientes web dinâmicos e adquirir informações externas de forma autônoma. Embora pesquisas recentes, como Search-R1 e WebDancer, demonstrem um desempenho forte na resolução de tarefas web, elas dependem fortemente de ferramentas adicionais para converter o ambiente web interativo em conteúdo textual estático. Isso contrasta com os comportamentos de navegação humana, que envolvem interações diversas com o navegador, como rolagem, cliques e digitação. Neste artigo, propomos o BrowserAgent, um agente mais interativo que resolve tarefas complexas por meio de ações de navegação inspiradas no comportamento humano. O BrowserAgent opera diretamente em páginas web brutas via Playwright, utilizando um conjunto de ações de navegação predefinidas. Adotamos um treinamento em duas etapas (Ajuste Fino Supervisionado - SFT e Ajuste Fino por Rejeição - RFT) para melhorar as habilidades de generalização do modelo. Apesar de usar significativamente menos dados de treinamento do que o Search-R1, o BrowserAgent alcança resultados mais competitivos em diferentes tarefas de Perguntas e Respostas Abertas (Open-QA). Além disso, introduzimos um mecanismo de memória explícita para armazenar conclusões-chave entre etapas, aprimorando ainda mais as capacidades de raciocínio do modelo para tarefas de longo prazo. Notavelmente, o BrowserAgent-7B pode alcançar uma melhoria de cerca de 20% em relação ao Search-R1 em tarefas de QA multi-hop, como HotpotQA, 2Wiki e Bamboogle. Esses resultados indicam que o BrowserAgent pode servir como uma estrutura mais avançada para agentes web mais interativos e escaláveis.
English
Efficiently solving real-world problems with LLMs increasingly hinges on
their ability to interact with dynamic web environments and autonomously
acquire external information. While recent research like Search-R1 and
WebDancer demonstrates strong performance in solving web tasks, they heavily
rely on additional tools to convert the interactive web environment into static
text content. This is in contrast to human browsing behaviors, which involve
diverse interactions with the browser, such as scrolling, clicking, and typing.
In this paper, we propose BrowserAgent, a more interactive agent that solves
complex tasks through human-inspired browser actions. BrowserAgent operates
directly on raw web pages via Playwright through a set of predefined browser
actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and
Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities.
Despite using significantly less training data than Search-R1, BrowserAgent
achieves more competitive results across different Open-QA tasks. Additionally,
we introduce an explicit memory mechanism to store key conclusions across
steps, further enhancing the model's reasoning capabilities for long-horizon
tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over
Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These
results indicate that BrowserAgent can serve as a more advanced framework for
more interactive and scalable web agents.