BrowserAgent: Construindo Agentes Web com Ações de Navegação Inspiradas no Comportamento Humano

Resumo

Resolver problemas do mundo real de forma eficiente com LLMs depende cada vez mais de sua capacidade de interagir com ambientes web dinâmicos e adquirir informações externas de forma autônoma. Embora pesquisas recentes, como Search-R1 e WebDancer, demonstrem um desempenho forte na resolução de tarefas web, elas dependem fortemente de ferramentas adicionais para converter o ambiente web interativo em conteúdo textual estático. Isso contrasta com os comportamentos de navegação humana, que envolvem interações diversas com o navegador, como rolagem, cliques e digitação. Neste artigo, propomos o BrowserAgent, um agente mais interativo que resolve tarefas complexas por meio de ações de navegação inspiradas no comportamento humano. O BrowserAgent opera diretamente em páginas web brutas via Playwright, utilizando um conjunto de ações de navegação predefinidas. Adotamos um treinamento em duas etapas (Ajuste Fino Supervisionado - SFT e Ajuste Fino por Rejeição - RFT) para melhorar as habilidades de generalização do modelo. Apesar de usar significativamente menos dados de treinamento do que o Search-R1, o BrowserAgent alcança resultados mais competitivos em diferentes tarefas de Perguntas e Respostas Abertas (Open-QA). Além disso, introduzimos um mecanismo de memória explícita para armazenar conclusões-chave entre etapas, aprimorando ainda mais as capacidades de raciocínio do modelo para tarefas de longo prazo. Notavelmente, o BrowserAgent-7B pode alcançar uma melhoria de cerca de 20% em relação ao Search-R1 em tarefas de QA multi-hop, como HotpotQA, 2Wiki e Bamboogle. Esses resultados indicam que o BrowserAgent pode servir como uma estrutura mais avançada para agentes web mais interativos e escaláveis.

English

Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent research like Search-R1 and WebDancer demonstrates strong performance in solving web tasks, they heavily rely on additional tools to convert the interactive web environment into static text content. This is in contrast to human browsing behaviors, which involve diverse interactions with the browser, such as scrolling, clicking, and typing. In this paper, we propose BrowserAgent, a more interactive agent that solves complex tasks through human-inspired browser actions. BrowserAgent operates directly on raw web pages via Playwright through a set of predefined browser actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities. Despite using significantly less training data than Search-R1, BrowserAgent achieves more competitive results across different Open-QA tasks. Additionally, we introduce an explicit memory mechanism to store key conclusions across steps, further enhancing the model's reasoning capabilities for long-horizon tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These results indicate that BrowserAgent can serve as a more advanced framework for more interactive and scalable web agents.

BrowserAgent: Construindo Agentes Web com Ações de Navegação Inspiradas no Comportamento Humano

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

Resumo

Support