BrowserAgent : Construire des agents web avec des actions de navigation inspirées de l'humain

papers.abstract

Résoudre efficacement des problèmes du monde réel avec des LLM repose de plus en plus sur leur capacité à interagir avec des environnements web dynamiques et à acquérir de manière autonome des informations externes. Bien que des recherches récentes comme Search-R1 et WebDancer démontrent des performances solides dans la résolution de tâches web, elles s'appuient fortement sur des outils supplémentaires pour convertir l'environnement web interactif en contenu textuel statique. Cela contraste avec les comportements de navigation humaine, qui impliquent des interactions variées avec le navigateur, telles que le défilement, les clics et la saisie. Dans cet article, nous proposons BrowserAgent, un agent plus interactif qui résout des tâches complexes grâce à des actions de navigation inspirées de l'humain. BrowserAgent opère directement sur des pages web brutes via Playwright à travers un ensemble d'actions de navigateur prédéfinies. Nous adoptons un entraînement en deux étapes (Supervised Fine-Tuning (SFT) et Rejection Fine-Tuning (RFT)) pour améliorer les capacités de généralisation du modèle. Malgré l'utilisation de données d'entraînement nettement moins nombreuses que Search-R1, BrowserAgent obtient des résultats plus compétitifs sur différentes tâches Open-QA. De plus, nous introduisons un mécanisme de mémoire explicite pour stocker les conclusions clés à travers les étapes, renforçant ainsi les capacités de raisonnement du modèle pour les tâches à long terme. Notamment, BrowserAgent-7B peut réaliser une amélioration d'environ 20 % par rapport à Search-R1 sur des tâches de QA multi-sauts comme HotpotQA, 2Wiki et Bamboogle. Ces résultats indiquent que BrowserAgent peut servir de cadre plus avancé pour des agents web plus interactifs et évolutifs.

English

Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent research like Search-R1 and WebDancer demonstrates strong performance in solving web tasks, they heavily rely on additional tools to convert the interactive web environment into static text content. This is in contrast to human browsing behaviors, which involve diverse interactions with the browser, such as scrolling, clicking, and typing. In this paper, we propose BrowserAgent, a more interactive agent that solves complex tasks through human-inspired browser actions. BrowserAgent operates directly on raw web pages via Playwright through a set of predefined browser actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities. Despite using significantly less training data than Search-R1, BrowserAgent achieves more competitive results across different Open-QA tasks. Additionally, we introduce an explicit memory mechanism to store key conclusions across steps, further enhancing the model's reasoning capabilities for long-horizon tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These results indicate that BrowserAgent can serve as a more advanced framework for more interactive and scalable web agents.

BrowserAgent : Construire des agents web avec des actions de navigation inspirées de l'humain

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

papers.abstract

Support