OS-Symphony: 강력하고 일반적인 컴퓨터 활용 에이전트를 위한 종합적 프레임워크
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
January 12, 2026
저자: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding
cs.AI
초록
비전-언어 모델(VLM)이 컴퓨터 사용 에이전트(CUA)의 발전을 크게 주도했지만, 현재 프레임워크는 장기적 워크플로우에서의 견고성과 새로운 도메인에서의 일반화에 어려움을 겪고 있습니다. 이러한 한계는 역사적 시각 컨텍스트 관리에 대한 세분화된 통제 부족과 시각 인식 튜토리얼 검색의 부재에서 비롯됩니다. 이러한 격차를 해소하기 위해 우리는 강력한 자동화를 위한 두 가지 핵심 혁신을 조율하는 오케스트레이터를 포함하는 종합 프레임워크인 OS-Symphony를 소개합니다: (1) 마일스톤 기반 장기 메모리를 활용하여 궤적 수준 자기 수정을 가능하게 하는 Reflection-Memory 에이전트로, 장기적 과업에서 시각 컨텍스트 손실을 효과적으로 완화합니다; (2) SeeAct 패러다임을 채택한 멀티모달 검색기를 갖춘 Versatile Tool 에이전트로, 브라우저 기반 샌드박스를 탐색하여 실시간으로 시각적으로 정렬된 튜토리얼을 합성함으로써 보지 못한 시나리오에서의 정확도 문제를 해결합니다. 실험 결과는 OS-Symphony가 다양한 모델 규모에서 상당한 성능 향상을 제공하며, 세 가지 온라인 벤치마크에서 새로운 최첨단 결과를 달성했음을 보여줍니다. 특히 OSWorld에서 65.84%를 달성했습니다.
English
While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.