OS-Symphony : Un cadre holistique pour un agent informatique robuste et généraliste
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
papers.authors: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
papers.abstract
Si les modèles vision-langage (VLM) ont considérablement fait progresser les agents informatiques, les cadres actuels peinent à assurer la robustesse dans les workflows à long terme et la généralisation dans de nouveaux domaines. Ces limitations proviennent d'un manque de contrôle granulaire sur la curation du contexte visuel historique et de l'absence de récupération de tutoriels visuellement conscients. Pour combler ces lacunes, nous présentons OS-Symphony, un cadre holistique comprenant un Orchestrateur coordonnant deux innovations clés pour une automatisation robuste : (1) un Agent à Mémoire-Réflexion qui utilise une mémoire à long terme pilotée par des étapes clés pour permettre une autocorrection au niveau de la trajectoire, atténuant efficacement la perte de contexte visuel dans les tâches à long terme ; (2) des Agents-Outils Polyvalents dotés d'un Moteur de Recherche Multimodal qui adopte un paradigme Voir-Agir pour naviguer dans un bac à sable basé sur un navigateur afin de synthétiser des tutoriels en direct et alignés visuellement, résolvant ainsi les problèmes de fidélité dans des scénarios non vus. Les résultats expérimentaux démontrent qu'OS-Symphony offre des gains de performances substantiels à différentes échelles de modèles, établissant de nouveaux records sur trois benchmarks en ligne, atteignant notamment 65,84 % sur OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.