OS-Symphony: Uma Estrutura Holística para Agentes de Uso de Computador Robustos e Generalistas
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
Autores: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
Resumo
Embora os Modelos de Visão e Linguagem (VLMs) tenham avançado significativamente os Agentes de Uso de Computador (CUAs), as estruturas atuais lutam com a robustez em fluxos de trabalho de longo horizonte e a generalização em domínios novos. Essas limitações decorrem da falta de controle granular sobre a curadoria do contexto visual histórico e da ausência de recuperação de tutoriais visualmente consciente. Para preencher essas lacunas, introduzimos o OS-Symphony, uma estrutura holística que compreende um Orchestrator que coordena duas inovações-chave para automação robusta: (1) um Agente de Reflexão-Memória que utiliza memória de longo prazo orientada por marcos para permitir a autocorreção a nível de trajetória, mitigando efetivamente a perda de contexto visual em tarefas de longo horizonte; (2) Agentes de Ferramentas Versáteis que apresentam um Pesquisador Multimodal que adota um paradigma SeeAct para navegar em um ambiente restrito baseado em navegador e sintetizar tutoriais dinâmicos e visualmente alinhados, resolvendo assim problemas de fidelidade em cenários não vistos. Resultados experimentais demonstram que o OS-Symphony proporciona ganhos substanciais de desempenho em várias escalas de modelo, estabelecendo novos resultados state-of-the-art em três benchmarks online, notavelmente alcançando 65,84% no OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.