ChatPaper.aiChatPaper

OS-Symphony:堅牢でジェネラリストなコンピュータ利用エージェントのための包括的フレームワーク

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

January 12, 2026
著者: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI

要旨

ビジョン言語モデル(VLM)はコンピュータ利用エージェント(CUA)を大幅に進化させたが、現行のフレームワークは長期ワークフローにおける頑健性と新規ドメインへの汎化性能に課題を残している。これらの制約は、履歴ビジュアルコンテキストの細粒度な制御不足と、視覚情報を考慮したチュートリアル検索機能の欠如に起因する。これらの課題を解決するため、我々はOS-Symphonyを提案する。これは、堅牢な自動化を実現する2つの核心技術をオーケストレータが統括する包括的フレームワークである:(1)マイルストーン駆動型長期メモリを活用するReflection-Memory Agentは、軌道レベル自己修正により長期タスクにおけるビジュアルコンテキスト消失を効果的に抑制;(2)SeeActパラダイムに基づくマルチモーダル検索機能を備えたVersatile Tool Agentは、ブラウザベースのサンドボックス内で視覚的に整合したライブチュートリアルを生成し、未経験シナリオにおける忠実度問題を解決する。実験結果では、OS-Symphonyが様々なモデル規模で大幅な性能向上を達成し、3つのオンラインベンチマークで新たなstate-of-the-artを確立、特にOSWorldでは65.84%を記録した。
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.
PDF273January 31, 2026