Surfer-H rencontre Holo1 : Un agent web économe en ressources propulsé par des modèles open source
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
June 3, 2025
Auteurs: Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu
cs.AI
Résumé
Nous présentons Surfer-H, un agent web économique qui intègre des modèles vision-langage (VLM) pour exécuter des tâches définies par l'utilisateur sur le web. Nous l'associons à Holo1, une nouvelle collection open-weight de VLMs spécialisés dans la navigation web et l'extraction d'informations. Holo1 a été entraîné sur des sources de données soigneusement sélectionnées, incluant du contenu web en accès libre, des exemples synthétiques et des données agentiques auto-produites. Holo1 domine les benchmarks généralistes d'interface utilisateur (UI) ainsi que notre nouveau benchmark de localisation d'UI web, WebClick. Lorsqu'il est alimenté par Holo1, Surfer-H atteint une performance de pointe de 92,2 % sur WebVoyager, établissant un équilibre Pareto-optimal entre précision et efficacité économique. Pour accélérer les avancées de recherche dans les systèmes agentiques, nous rendons publics à la fois notre ensemble de données d'évaluation WebClick et les poids du modèle Holo1.
English
We present Surfer-H, a cost-efficient web agent that integrates
Vision-Language Models (VLM) to perform user-defined tasks on the web. We pair
it with Holo1, a new open-weight collection of VLMs specialized in web
navigation and information extraction. Holo1 was trained on carefully curated
data sources, including open-access web content, synthetic examples, and
self-produced agentic data. Holo1 tops generalist User Interface (UI)
benchmarks as well as our new web UI localization benchmark, WebClick. When
powered by Holo1, Surfer-H achieves a 92.2% state-of-the-art performance on
WebVoyager, striking a Pareto-optimal balance between accuracy and
cost-efficiency. To accelerate research advancement in agentic systems, we are
open-sourcing both our WebClick evaluation dataset and the Holo1 model weights.