ChatPaper.aiChatPaper

Surfer-HがHolo1に出会う:オープンウェイトで駆動するコスト効率の良いWebエージェント

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

June 3, 2025
著者: Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu
cs.AI

要旨

本論文では、コスト効率の高いウェブエージェントであるSurfer-Hを紹介する。Surfer-Hは、ユーザー定義のタスクをウェブ上で実行するためにVision-Language Models(VLM)を統合したものである。これに加えて、ウェブナビゲーションと情報抽出に特化した新しいオープンウェイトのVLMコレクションであるHolo1を開発した。Holo1は、オープンアクセスのウェブコンテンツ、合成例、および自己生成したエージェントデータを含む、慎重に選ばれたデータソースでトレーニングされた。Holo1は、一般的なユーザーインターフェース(UI)ベンチマークだけでなく、新たに開発したウェブUIローカライゼーションベンチマークであるWebClickにおいても最高の性能を発揮する。Holo1を搭載したSurfer-Hは、WebVoyagerにおいて92.2%の最先端の性能を達成し、精度とコスト効率の間でパレート最適なバランスを実現している。エージェントシステムの研究進展を加速するため、WebClick評価データセットとHolo1のモデルウェイトをオープンソースとして公開する。
English
We present Surfer-H, a cost-efficient web agent that integrates Vision-Language Models (VLM) to perform user-defined tasks on the web. We pair it with Holo1, a new open-weight collection of VLMs specialized in web navigation and information extraction. Holo1 was trained on carefully curated data sources, including open-access web content, synthetic examples, and self-produced agentic data. Holo1 tops generalist User Interface (UI) benchmarks as well as our new web UI localization benchmark, WebClick. When powered by Holo1, Surfer-H achieves a 92.2% state-of-the-art performance on WebVoyager, striking a Pareto-optimal balance between accuracy and cost-efficiency. To accelerate research advancement in agentic systems, we are open-sourcing both our WebClick evaluation dataset and the Holo1 model weights.
PDF272June 6, 2025