ChatPaper.aiChatPaper

OS-Copilot: 자기 개선 기능을 갖춘 범용 컴퓨터 에이전트를 향하여

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

February 12, 2024
저자: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong
cs.AI

초록

컴퓨터와의 자율적 상호작용은 오랜 기간 동안 큰 잠재력을 지닌 도전 과제로 여겨져 왔으며, 최근 대규모 언어 모델(LLM)의 확산으로 디지털 에이전트 구축에 있어 상당한 진전이 이루어졌다. 그러나 이러한 에이전트 대부분은 특정 소프트웨어나 웹사이트와 같은 좁은 영역에서 상호작용하도록 설계되어 있어, 일반적인 컴퓨터 작업에 적용하기에는 한계가 있다. 이를 해결하기 위해 우리는 운영체제(OS) 내의 웹, 코드 터미널, 파일, 멀티미디어, 다양한 타사 애플리케이션을 포함한 포괄적인 요소들과 인터페이스할 수 있는 일반화된 에이전트를 구축하기 위한 프레임워크인 OS-Copilot을 소개한다. 우리는 OS-Copilot을 활용하여 일반적인 컴퓨터 작업을 자동화하기 위한 자기 개선형 구현 에이전트인 FRIDAY를 개발했다. 일반 AI 어시스턴트 벤치마크인 GAIA에서 FRIDAY는 기존 방법 대비 35% 더 우수한 성능을 보이며, 이전 작업에서 축적된 기술을 통해 보이지 않는 애플리케이션에 대한 강력한 일반화 능력을 입증했다. 또한 우리는 FRIDAY가 최소한의 감독 하에서 Excel과 Powerpoint를 제어하고 자기 개선하는 방법을 학습한다는 수치적 및 정량적 증거를 제시한다. 우리의 OS-Copilot 프레임워크와 실험 결과는 더 능력 있고 일반적인 목적의 컴퓨터 에이전트를 향한 미래 연구를 위한 인프라와 통찰을 제공한다.
English
Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.
PDF464December 15, 2024