OS-Symphony: Een Holistisch Kader voor Robuuste en Generalistische Computergebruikende Agenten
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
Auteurs: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
Samenvatting
Hoewel Vision-Language Models (VLM's) Computer-Using Agents (CUA's) aanzienlijk hebben verbeterd, worstelen huidige raamwerken met robuustheid in langetermijnwerkstromen en generalisatie in nieuwe domeinen. Deze beperkingen ontstaan door een gebrek aan gedetailleerde controle over het beheer van historische visuele context en de afwezigheid van visueel-bewuste tutorialretrieval. Om deze kloof te overbruggen, introduceren we OS-Symphony, een holistisch raamwerk dat een Orchestrator omvat welke twee belangrijke innovaties coördineert voor robuuste automatisering: (1) een Reflection-Memory Agent die gebruikmaakt van mijlpaalgestuurd langetermijngeheugen om trajectniveau zelffcorrectie mogelijk te maken, waardoor visuele contextverlies in langetermijntaken effectief wordt verminderd; (2) Veelzijdige Tool Agents met een Multimodale Zoeker die een SeeAct-paradigma hanteert om in een op een browser gebaseerde sandbox te navigeren om live, visueel afgestemde tutorials te synthetiseren, waardoor betrouwbaarheidsproblemen in onbekende scenario's worden opgelost. Experimentele resultaten tonen aan dat OS-Symphony aanzienlijke prestatieverbeteringen oplevert over verschillende modelschalen, waarbij nieuwe state-of-the-art resultaten worden gevestigd op drie online benchmarks, met name een score van 65,84% op OSWorld.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.