ChatPaper.aiChatPaper

BrowserAgent: 人間のウェブブラウジング行動に着想を得たウェブエージェントの構築

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

October 12, 2025
著者: Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen
cs.AI

要旨

現実世界の問題をLLMで効率的に解決するためには、動的なウェブ環境と対話し、外部情報を自律的に取得する能力がますます重要になっています。Search-R1やWebDancerなどの最近の研究は、ウェブタスクの解決において高い性能を示していますが、これらはインタラクティブなウェブ環境を静的なテキストコンテンツに変換するための追加ツールに大きく依存しています。これは、スクロール、クリック、タイピングなど、ブラウザとの多様なインタラクションを含む人間のブラウジング行動とは対照的です。本論文では、人間のブラウジング行動にインスパイアされたブラウザ操作を通じて複雑なタスクを解決する、よりインタラクティブなエージェントであるBrowserAgentを提案します。BrowserAgentは、Playwrightを介して生のウェブページ上で直接動作し、事前に定義されたブラウザ操作を実行します。モデルの汎化能力を向上させるために、2段階のトレーニング(Supervised Fine-Tuning (SFT) と Rejection Fine-Tuning (RFT))を採用しています。Search-R1よりも大幅に少ないトレーニングデータを使用しているにもかかわらず、BrowserAgentはさまざまなOpen-QAタスクにおいてより競争力のある結果を達成します。さらに、ステップ間で重要な結論を保存するための明示的なメモリ機構を導入し、長期的なタスクに対するモデルの推論能力をさらに強化します。特に、BrowserAgent-7Bは、HotpotQA、2Wiki、BamboogleなどのマルチホップQAタスクにおいて、Search-R1に対して約20%の改善を達成できます。これらの結果は、BrowserAgentが、よりインタラクティブでスケーラブルなウェブエージェントのためのより高度なフレームワークとして機能し得ることを示しています。
English
Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent research like Search-R1 and WebDancer demonstrates strong performance in solving web tasks, they heavily rely on additional tools to convert the interactive web environment into static text content. This is in contrast to human browsing behaviors, which involve diverse interactions with the browser, such as scrolling, clicking, and typing. In this paper, we propose BrowserAgent, a more interactive agent that solves complex tasks through human-inspired browser actions. BrowserAgent operates directly on raw web pages via Playwright through a set of predefined browser actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities. Despite using significantly less training data than Search-R1, BrowserAgent achieves more competitive results across different Open-QA tasks. Additionally, we introduce an explicit memory mechanism to store key conclusions across steps, further enhancing the model's reasoning capabilities for long-horizon tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These results indicate that BrowserAgent can serve as a more advanced framework for more interactive and scalable web agents.
PDF272October 14, 2025