ChatPaper.aiChatPaper

OS-Symphony: Ein holistischer Rahmenwerk für robuste und generalistische computernutzende Agenten

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

January 12, 2026
papers.authors: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI

papers.abstract

Während Vision-Language-Modelle (VLMs) Computer-Using Agents (CUAs) erheblich vorangebracht haben, kämpfen aktuelle Frameworks mit Robustheit in langfristigen Workflows und Generalisierung in neuartigen Domänen. Diese Einschränkungen resultieren aus einem Mangel an granularer Kontrolle über die Kuratierung historischer visueller Kontexte und dem Fehlen einer visuell-bewussten Tutorial-Retrieval. Um diese Lücken zu schließen, stellen wir OS-Symphony vor, ein holistisches Framework, das einen Orchestrator umfasst, der zwei zentrale Innovationen für robuste Automatisierung koordiniert: (1) einen Reflection-Memory-Agenten, der meilenstein-gesteuertes Langzeitgedächtnis nutzt, um Trajektorien-basierte Selbstkorrektur zu ermöglichen und so den Verlust visueller Kontexte in langfristigen Aufgaben effektiv abmildert; (2) vielseitige Tool-Agenten mit einem Multimodal-Searcher, der ein SeeAct-Paradigma anwendet, um in einer browserbasierten Sandbox zu navigieren und live, visuell abgestimmte Tutorials zu synthetisieren, wodurch Treueprobleme in ungesehenen Szenarien gelöst werden. Experimentelle Ergebnisse demonstrieren, dass OS-Symphony substantiale Leistungssteigerungen über verschiedene Modellskalen hinweg erzielt und neue State-of-the-Art-Ergebnisse auf drei Online-Benchmarks etabliert, insbesondere mit 65,84 % auf OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.
PDF273January 31, 2026