Surfer-H와 Holo1의 만남: 오픈 웨이트 기반의 비용 효율적 웹 에이전트
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
June 3, 2025
저자: Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu
cs.AI
초록
우리는 비전-언어 모델(VLM)을 통합하여 웹에서 사용자 정의 작업을 수행하는 비용 효율적인 웹 에이전트인 Surfer-H를 소개합니다. 이를 웹 탐색 및 정보 추출에 특화된 새로운 오픈 웨이트 VLM 컬렉션인 Holo1과 결합했습니다. Holo1은 공개 접근 가능한 웹 콘텐츠, 합성 예제, 그리고 자체 생성된 에이전트 데이터를 포함한 신중하게 선별된 데이터 소스로 학습되었습니다. Holo1은 일반적인 사용자 인터페이스(UI) 벤치마크와 우리의 새로운 웹 UI 지역화 벤치마크인 WebClick에서 최고의 성능을 보입니다. Holo1을 기반으로 하는 Surfer-H는 WebVoyager에서 92.2%의 최첨단 성능을 달성하며, 정확도와 비용 효율성 사이의 파레토 최적 균형을 이루었습니다. 에이전트 시스템 연구의 발전을 가속화하기 위해, 우리는 WebClick 평가 데이터셋과 Holo1 모델 가중치를 오픈소스로 공개합니다.
English
We present Surfer-H, a cost-efficient web agent that integrates
Vision-Language Models (VLM) to perform user-defined tasks on the web. We pair
it with Holo1, a new open-weight collection of VLMs specialized in web
navigation and information extraction. Holo1 was trained on carefully curated
data sources, including open-access web content, synthetic examples, and
self-produced agentic data. Holo1 tops generalist User Interface (UI)
benchmarks as well as our new web UI localization benchmark, WebClick. When
powered by Holo1, Surfer-H achieves a 92.2% state-of-the-art performance on
WebVoyager, striking a Pareto-optimal balance between accuracy and
cost-efficiency. To accelerate research advancement in agentic systems, we are
open-sourcing both our WebClick evaluation dataset and the Holo1 model weights.