BrowserAgent: Entwicklung von Web-Agenten mit menscheninspirierten Web-Browsing-Aktionen

papers.abstract

Die effiziente Lösung realer Probleme mit LLMs hängt zunehmend von ihrer Fähigkeit ab, mit dynamischen Webumgebungen zu interagieren und externe Informationen autonom zu erwerben. Während aktuelle Forschungsarbeiten wie Search-R1 und WebDancer eine starke Leistung bei der Lösung von Webaufgaben demonstrieren, sind sie stark auf zusätzliche Werkzeuge angewiesen, um die interaktive Webumgebung in statischen Textinhalt umzuwandeln. Dies steht im Gegensatz zu menschlichen Surfverhalten, das vielfältige Interaktionen mit dem Browser wie Scrollen, Klicken und Tippen umfasst. In diesem Artikel schlagen wir BrowserAgent vor, einen interaktiveren Agenten, der komplexe Aufgaben durch menschlich inspirierte Browseraktionen löst. BrowserAgent operiert direkt auf rohen Webseiten über Playwright durch eine Reihe vordefinierter Browseraktionen. Wir verwenden ein zweistufiges Training (Supervised Fine-Tuning (SFT) und Rejection Fine-Tuning (RFT)), um die Generalisierungsfähigkeiten des Modells zu verbessern. Obwohl BrowserAgent deutlich weniger Trainingsdaten als Search-R1 verwendet, erzielt er wettbewerbsfähigere Ergebnisse bei verschiedenen Open-QA-Aufgaben. Zusätzlich führen wir einen expliziten Speichermechanismus ein, um Schlussfolgerungen über Schritte hinweg zu speichern, was die Argumentationsfähigkeiten des Modells für langfristige Aufgaben weiter verbessert. Bemerkenswerterweise kann BrowserAgent-7B eine Verbesserung von etwa 20 % gegenüber Search-R1 bei Multi-Hop-QA-Aufgaben wie HotpotQA, 2Wiki und Bamboogle erreichen. Diese Ergebnisse deuten darauf hin, dass BrowserAgent als fortschrittlicheres Framework für interaktivere und skalierbarere Webagenten dienen kann.

English

Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent research like Search-R1 and WebDancer demonstrates strong performance in solving web tasks, they heavily rely on additional tools to convert the interactive web environment into static text content. This is in contrast to human browsing behaviors, which involve diverse interactions with the browser, such as scrolling, clicking, and typing. In this paper, we propose BrowserAgent, a more interactive agent that solves complex tasks through human-inspired browser actions. BrowserAgent operates directly on raw web pages via Playwright through a set of predefined browser actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities. Despite using significantly less training data than Search-R1, BrowserAgent achieves more competitive results across different Open-QA tasks. Additionally, we introduce an explicit memory mechanism to store key conclusions across steps, further enhancing the model's reasoning capabilities for long-horizon tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These results indicate that BrowserAgent can serve as a more advanced framework for more interactive and scalable web agents.

BrowserAgent: Entwicklung von Web-Agenten mit menscheninspirierten Web-Browsing-Aktionen

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

papers.abstract

Support