Surfer 2: La Nuova Generazione di Agenti per l'Utilizzo del Computer Multipiattaforma
Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
October 22, 2025
Autori: Mathieu Andreux, Märt Bakler, Yanael Barbier, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Aleix Cambray, Pierre-Louis Cedoz, Antoine Chassang, Gautier Cloix, Ethan Connelly, Alexandra Constantinou, Ramzi De Coster, Hubert de la Jonquiere, Aurélien Delfosse, Maxime Delpit, Alexis Deprez, Augustin Derupti, Mathieu Diaz, Shannon D'Souza, Julie Dujardin, Abai Edmund, Michael Eickenberg, Armand Fatalot, Wissem Felissi, Isaac Herring, Xavier Koegler, Erwan Le Jumeau de Kergaradec, Aurélien Lac, Maxime Langevin, Corentin Lauverjat, Antonio Loison, Avshalom Manevich, Axel Moyal, Axel Nguyen Kerbel, Marinela Parovic, Julien Revelle, Guillaume Richard, Mats Richter, Ronan Riochet, María Santos, Romain Savidan, Laurent Sifre, Maxime Theillard, Marc Thibault, Ivan Valentini, Tony Wu, Laura Yie, Kai Yuan, Jevgenij Zubovskij
cs.AI
Abstract
La creazione di agenti in grado di generalizzare attraverso ambienti web, desktop e mobili rimane una sfida aperta, poiché i sistemi precedenti si basano su interfacce specifiche per ambiente che limitano lo sviluppo multipiattaforma. Introduciamo Surfer 2, un'architettura unificata che opera esclusivamente da osservazioni visive e raggiunge prestazioni all'avanguardia in tutti e tre gli ambienti. Surfer 2 integra una gestione gerarchica del contesto, una pianificazione ed esecuzione disaccoppiate e un'autoverifica con ripristino adattivo, consentendo un funzionamento affidabile su lunghi orizzonti di attività. Il nostro sistema raggiunge un'accuratezza del 97,1% su WebVoyager, del 69,6% su WebArena, del 60,1% su OSWorld e dell'87,1% su AndroidWorld, superando tutti i sistemi precedenti senza una messa a punto specifica per attività. Con tentativi multipli, Surfer 2 supera le prestazioni umane su tutti i benchmark. Questi risultati dimostrano che un'orchestrazione sistematica amplifica le capacità dei modelli di base e abilita il controllo informatico generico attraverso la sola interazione visiva, richiedendo al contempo un modello linguistico visivo di prossima generazione per raggiungere un'efficienza di costo Pareto-ottimale.
English
Building agents that generalize across web, desktop, and mobile environments
remains an open challenge, as prior systems rely on environment-specific
interfaces that limit cross-platform deployment. We introduce Surfer 2, a
unified architecture operating purely from visual observations that achieves
state-of-the-art performance across all three environments. Surfer 2 integrates
hierarchical context management, decoupled planning and execution, and
self-verification with adaptive recovery, enabling reliable operation over long
task horizons. Our system achieves 97.1% accuracy on WebVoyager, 69.6% on
WebArena, 60.1% on OSWorld, and 87.1% on AndroidWorld, outperforming all prior
systems without task-specific fine-tuning. With multiple attempts, Surfer 2
exceeds human performance on all benchmarks. These results demonstrate that
systematic orchestration amplifies foundation model capabilities and enables
general-purpose computer control through visual interaction alone, while
calling for a next-generation vision language model to achieve Pareto-optimal
cost-efficiency.