ChatPaper.aiChatPaper

OS-Symphony: Un Marco Holístico para Agentes de Uso Informático Robusto y Generalista

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

January 12, 2026
Autores: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI

Resumen

Si bien los Modelos de Visión y Lenguaje (VLM) han impulsado significativamente a los Agentes de Uso Informático (CUA), los marcos actuales presentan deficiencias en cuanto a robustez en flujos de trabajo de largo horizonte y generalización en dominios novedosos. Estas limitaciones surgen de la falta de control granular sobre la curación del contexto visual histórico y la ausencia de una recuperación de tutoriales consciente de lo visual. Para cerrar estas brechas, presentamos OS-Symphony, un marco holístico que comprende un Orquestador que coordina dos innovaciones clave para una automatización robusta: (1) un Agente de Memoria-Reflexión que utiliza una memoria a largo plazo impulsada por hitos para permitir la autocorrección a nivel de trayectoria, mitigando efectivamente la pérdida de contexto visual en tareas de largo horizonte; (2) Agentes de Herramientas Versátiles que incluyen un Buscador Multimodal que adopta un paradigma SeeAct para navegar en un entorno de pruebas basado en navegador y sintetizar tutoriales en vivo y alineados visualmente, resolviendo así los problemas de fidelidad en escenarios no vistos. Los resultados experimentales demuestran que OS-Symphony ofrece ganancias sustanciales de rendimiento en diversas escalas de modelos, estableciendo nuevos resultados de vanguardia en tres puntos de referencia en línea, logrando notablemente un 65.84% en OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.
PDF273January 31, 2026