OS-Symphony: Холистическая фреймворк для создания робастных и универсальных агентов, взаимодействующих с компьютером
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
Авторы: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
Аннотация
Хотя модели «визуальный язык» (Vision-Language Models, VLM) значительно продвинули развитие компьютерных агентов (Computer-Using Agents, CUA), современные фреймворки сталкиваются с проблемами устойчивости в долгосрочных рабочих процессах и обобщения в новых областях. Эти ограничения проистекают из отсутствия детального контроля над курированием исторического визуального контекста и недостатка механизмов поиска обучающих материалов с учетом визуальной информации. Для преодоления этих пробелов мы представляем OS-Symphony — целостный фреймворк, который включает Оркестратор, координирующий две ключевые инновации для обеспечения надежной автоматизации: (1) Агент Рефлексии-Памяти, использующий долговременную память на основе вех для самоисправления на уровне траектории, что эффективно mitigates потерю визуального контекста в долгосрочных задачах; (2) Универсальные Инструментальные Агенты, включающие Мультимодальный Поисковик, который применяет парадигму SeeAct для навигации в браузерной песочнице с целью синтеза актуальных, визуально согласованных tutorials, тем самым решая проблемы достоверности в неизвестных сценариях. Результаты экспериментов демонстрируют, что OS-Symphony обеспечивает существенный прирост производительности для моделей различного масштаба, устанавливая новые state-of-the-art результаты на трех онлайн-бенчмарках, в частности, достигая 65.84% на OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.