ChatPaper.aiChatPaper

Surfer 2 : La nouvelle génération d'agents informatiques multiplateformes

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

October 22, 2025
papers.authors: Mathieu Andreux, Märt Bakler, Yanael Barbier, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Aleix Cambray, Pierre-Louis Cedoz, Antoine Chassang, Gautier Cloix, Ethan Connelly, Alexandra Constantinou, Ramzi De Coster, Hubert de la Jonquiere, Aurélien Delfosse, Maxime Delpit, Alexis Deprez, Augustin Derupti, Mathieu Diaz, Shannon D'Souza, Julie Dujardin, Abai Edmund, Michael Eickenberg, Armand Fatalot, Wissem Felissi, Isaac Herring, Xavier Koegler, Erwan Le Jumeau de Kergaradec, Aurélien Lac, Maxime Langevin, Corentin Lauverjat, Antonio Loison, Avshalom Manevich, Axel Moyal, Axel Nguyen Kerbel, Marinela Parovic, Julien Revelle, Guillaume Richard, Mats Richter, Ronan Riochet, María Santos, Romain Savidan, Laurent Sifre, Maxime Theillard, Marc Thibault, Ivan Valentini, Tony Wu, Laura Yie, Kai Yuan, Jevgenij Zubovskij
cs.AI

papers.abstract

La création d'agents capables de généraliser leurs compétences aux environnements web, de bureau et mobiles reste un défi ouvert, car les systèmes antérieurs dépendent d'interfaces spécifiques à chaque environnement qui limitent le déploiement multiplateforme. Nous présentons Surfer 2, une architecture unifiée fonctionnant uniquement à partir d'observations visuelles qui obtient des performances de pointe dans les trois environnements. Surfer 2 intègre une gestion hiérarchique du contexte, une planification et une exécution découplées, et une auto-vérification avec récupération adaptative, permettant un fonctionnement fiable sur de longs horizons de tâches. Notre système atteint une précision de 97,1% sur WebVoyager, 69,6% sur WebArena, 60,1% sur OSWorld et 87,1% sur AndroidWorld, surpassant tous les systèmes antérieurs sans ajustement spécifique aux tâches. Avec plusieurs tentatives, Surfer 2 dépasse les performances humaines sur tous les benchmarks. Ces résultats démontrent qu'une orchestration systématique amplifie les capacités des modèles de fondation et permet le contrôle informatique universel par la seule interaction visuelle, tout en appelant à une nouvelle génération de modèles de vision et de langage pour atteindre une optimisation de Pareto en termes de coût-efficacité.
English
Building agents that generalize across web, desktop, and mobile environments remains an open challenge, as prior systems rely on environment-specific interfaces that limit cross-platform deployment. We introduce Surfer 2, a unified architecture operating purely from visual observations that achieves state-of-the-art performance across all three environments. Surfer 2 integrates hierarchical context management, decoupled planning and execution, and self-verification with adaptive recovery, enabling reliable operation over long task horizons. Our system achieves 97.1% accuracy on WebVoyager, 69.6% on WebArena, 60.1% on OSWorld, and 87.1% on AndroidWorld, outperforming all prior systems without task-specific fine-tuning. With multiple attempts, Surfer 2 exceeds human performance on all benchmarks. These results demonstrate that systematic orchestration amplifies foundation model capabilities and enables general-purpose computer control through visual interaction alone, while calling for a next-generation vision language model to achieve Pareto-optimal cost-efficiency.
PDF382December 2, 2025