Surfer 2: 차세대 크로스 플랫폼 컴퓨터 사용 에이전트
Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
October 22, 2025
저자: Mathieu Andreux, Märt Bakler, Yanael Barbier, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Aleix Cambray, Pierre-Louis Cedoz, Antoine Chassang, Gautier Cloix, Ethan Connelly, Alexandra Constantinou, Ramzi De Coster, Hubert de la Jonquiere, Aurélien Delfosse, Maxime Delpit, Alexis Deprez, Augustin Derupti, Mathieu Diaz, Shannon D'Souza, Julie Dujardin, Abai Edmund, Michael Eickenberg, Armand Fatalot, Wissem Felissi, Isaac Herring, Xavier Koegler, Erwan Le Jumeau de Kergaradec, Aurélien Lac, Maxime Langevin, Corentin Lauverjat, Antonio Loison, Avshalom Manevich, Axel Moyal, Axel Nguyen Kerbel, Marinela Parovic, Julien Revelle, Guillaume Richard, Mats Richter, Ronan Riochet, María Santos, Romain Savidan, Laurent Sifre, Maxime Theillard, Marc Thibault, Ivan Valentini, Tony Wu, Laura Yie, Kai Yuan, Jevgenij Zubovskij
cs.AI
초록
웹, 데스크톱, 모바일 환경을 아우르는 일반화된 에이전트 구축은 기존 시스템이 환경별 인터페이스에 의존하여 크로스 플랫폼 배포가 제한됨에 따라 여전히 해결과제로 남아 있습니다. 본 연구에서는 순수 시각 관찰만으로 작동하며 세 환경 모두에서 최첨단 성능을 달성하는 통합 아키텍처인 Surfer 2를 소개합니다. Surfer 2는 계층적 컨텍스트 관리, 분리된 계획 및 실행, 적응형 복구를 통한 자체 검증을 통합하여 장기간 작업에서도 신뢰할 수 있는 운영을 가능하게 합니다. 우리 시스템은 WebVoyager에서 97.1%, WebArena에서 69.6%, OSWorld에서 60.1%, AndroidWorld에서 87.1%의 정확도를 달성하여 작업별 미세 조정 없이 모든 기존 시스템을 능가합니다. 여러 번의 시도를 통해 Surfer 2는 모든 벤치마크에서 인간의 성능을 초과했습니다. 이러한 결과는 체계적인 오케스트레이션이 파운데이션 모델의 능력을 증폭시키고 시각 상호작용만을 통해 범용 컴퓨터 제어를 가능하게 함을 보여주며, 동시에 파레토 최적의 비용 효율성을 달성하기 위한 차세대 비전 언어 모델의 필요성을 제기합니다.
English
Building agents that generalize across web, desktop, and mobile environments
remains an open challenge, as prior systems rely on environment-specific
interfaces that limit cross-platform deployment. We introduce Surfer 2, a
unified architecture operating purely from visual observations that achieves
state-of-the-art performance across all three environments. Surfer 2 integrates
hierarchical context management, decoupled planning and execution, and
self-verification with adaptive recovery, enabling reliable operation over long
task horizons. Our system achieves 97.1% accuracy on WebVoyager, 69.6% on
WebArena, 60.1% on OSWorld, and 87.1% on AndroidWorld, outperforming all prior
systems without task-specific fine-tuning. With multiple attempts, Surfer 2
exceeds human performance on all benchmarks. These results demonstrate that
systematic orchestration amplifies foundation model capabilities and enables
general-purpose computer control through visual interaction alone, while
calling for a next-generation vision language model to achieve Pareto-optimal
cost-efficiency.