ChatPaper.aiChatPaper

Surfer-H trifft auf Holo1: Kosteneffizienter Web-Agent, betrieben durch Open Weights

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

June 3, 2025
Autoren: Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu
cs.AI

Zusammenfassung

Wir präsentieren Surfer-H, einen kosteneffizienten Web-Agenten, der Vision-Language-Modelle (VLM) integriert, um benutzerdefinierte Aufgaben im Web auszuführen. Wir kombinieren ihn mit Holo1, einer neuen Sammlung von Open-Weight-VLMs, die speziell für die Webnavigation und Informationsextraktion entwickelt wurden. Holo1 wurde mit sorgfältig kuratierten Datenquellen trainiert, darunter frei zugängliche Webinhalte, synthetische Beispiele und selbst erzeugte agentische Daten. Holo1 führt sowohl in allgemeinen User-Interface-(UI)-Benchmarks als auch in unserem neuen Web-UI-Lokalisierungsbenchmark, WebClick, die Bestenlisten an. Mit Holo1 als Antrieb erreicht Surfer-H eine state-of-the-art Leistung von 92,2 % auf WebVoyager und schafft dabei ein Pareto-optimales Gleichgewicht zwischen Genauigkeit und Kosteneffizienz. Um den Forschungsfortschritt in agentischen Systemen zu beschleunigen, stellen wir sowohl unser WebClick-Evaluationsdatensatz als auch die Modellgewichte von Holo1 als Open Source zur Verfügung.
English
We present Surfer-H, a cost-efficient web agent that integrates Vision-Language Models (VLM) to perform user-defined tasks on the web. We pair it with Holo1, a new open-weight collection of VLMs specialized in web navigation and information extraction. Holo1 was trained on carefully curated data sources, including open-access web content, synthetic examples, and self-produced agentic data. Holo1 tops generalist User Interface (UI) benchmarks as well as our new web UI localization benchmark, WebClick. When powered by Holo1, Surfer-H achieves a 92.2% state-of-the-art performance on WebVoyager, striking a Pareto-optimal balance between accuracy and cost-efficiency. To accelerate research advancement in agentic systems, we are open-sourcing both our WebClick evaluation dataset and the Holo1 model weights.
PDF272June 6, 2025