BrowserAgent: Costruire Agenti Web con Azioni di Navigazione Ispirate al Comportamento Umano
BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
October 12, 2025
Autori: Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen
cs.AI
Abstract
Risolvere in modo efficiente problemi del mondo reale con i modelli linguistici di grandi dimensioni (LLM) dipende sempre più dalla loro capacità di interagire con ambienti web dinamici e acquisire autonomamente informazioni esterne. Sebbene ricerche recenti come Search-R1 e WebDancer dimostrino prestazioni solide nella risoluzione di attività web, si affidano pesantemente a strumenti aggiuntivi per convertire l'ambiente web interattivo in contenuti testuali statici. Questo contrasta con i comportamenti di navigazione umani, che implicano interazioni diversificate con il browser, come lo scorrimento, i clic e la digitazione. In questo articolo, proponiamo BrowserAgent, un agente più interattivo che risolve compiti complessi attraverso azioni del browser ispirate a quelle umane. BrowserAgent opera direttamente sulle pagine web grezze tramite Playwright attraverso un insieme di azioni predefinite del browser. Adottiamo un addestramento in due fasi (Supervised Fine-Tuning, SFT, e Rejection Fine-Tuning, RFT) per migliorare le capacità di generalizzazione del modello. Nonostante utilizzi una quantità di dati di addestramento significativamente inferiore rispetto a Search-R1, BrowserAgent ottiene risultati più competitivi in diverse attività di Open-QA. Inoltre, introduciamo un meccanismo di memoria esplicita per memorizzare conclusioni chiave tra i passaggi, migliorando ulteriormente le capacità di ragionamento del modello per attività a lungo termine. In particolare, BrowserAgent-7B può ottenere un miglioramento di circa il 20% rispetto a Search-R1 in attività di QA multi-hop come HotpotQA, 2Wiki e Bamboogle. Questi risultati indicano che BrowserAgent può servire come un framework più avanzato per agenti web più interattivi e scalabili.
English
Efficiently solving real-world problems with LLMs increasingly hinges on
their ability to interact with dynamic web environments and autonomously
acquire external information. While recent research like Search-R1 and
WebDancer demonstrates strong performance in solving web tasks, they heavily
rely on additional tools to convert the interactive web environment into static
text content. This is in contrast to human browsing behaviors, which involve
diverse interactions with the browser, such as scrolling, clicking, and typing.
In this paper, we propose BrowserAgent, a more interactive agent that solves
complex tasks through human-inspired browser actions. BrowserAgent operates
directly on raw web pages via Playwright through a set of predefined browser
actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and
Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities.
Despite using significantly less training data than Search-R1, BrowserAgent
achieves more competitive results across different Open-QA tasks. Additionally,
we introduce an explicit memory mechanism to store key conclusions across
steps, further enhancing the model's reasoning capabilities for long-horizon
tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over
Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These
results indicate that BrowserAgent can serve as a more advanced framework for
more interactive and scalable web agents.