OS-Symphony: Un Framework Olistico per Agenti Informatici Robusti e Generalisti
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
Autori: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
Abstract
Sebbene i modelli visione-linguaggio (VLM) abbiano fatto progredire significativamente gli agenti che utilizzano computer (CUA), gli attuali framework incontrano difficoltà in termini di robustezza nei flussi di lavoro a lungo orizzonte e di generalizzazione in domini nuovi. Queste limitazioni derivano dalla mancanza di un controllo granulare sulla selezione del contesto visivo storico e dall'assenza di un recupero di tutorial visivamente consapevole. Per colmare queste lacune, introduciamo OS-Symphony, un framework olistico che comprende un Orchestratore che coordina due innovazioni chiave per un'automazione robusta: (1) un Agente a Memoria-Riflessione che utilizza una memoria a lungo termine guidata da milestone per abilitare l'autocorrezione a livello di traiettoria, mitigando efficacemente la perdita del contesto visivo nei compiti a lungo orizzonte; (2) Agenti Strumento Versatili dotati di un Ricercatore Multimodale che adotta un paradigma SeeAct per navigare in una sandbox basata su browser per sintetizzare tutorial in tempo reale e allineati visivamente, risolvendo così i problemi di fedeltà negli scenari non visti. I risultati sperimentali dimostrano che OS-Symphony fornisce sostanziali miglioramenti delle prestazioni su varie scale di modelli, stabilendo nuovi risultati state-of-the-art su tre benchmark online, raggiungendo in particolare il 65,84% su OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.