OS-Copilot: Naar algemene computeragentschappen met zelfverbetering
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
February 12, 2024
Auteurs: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong
cs.AI
Samenvatting
Autonome interactie met de computer is al lang een uitdaging met groot potentieel, en de recente opkomst van grote taalmodellen (LLM's) heeft de vooruitgang in het bouwen van digitale agents aanzienlijk versneld. De meeste van deze agents zijn echter ontworpen om te interageren met een beperkt domein, zoals een specifiek softwareprogramma of website. Deze beperkte focus beperkt hun toepasbaarheid voor algemene computertaken. Daarom introduceren we OS-Copilot, een raamwerk om generalistische agents te bouwen die in staat zijn om te communiceren met uitgebreide elementen in een besturingssysteem (OS), waaronder het web, code-terminals, bestanden, multimedia en diverse applicaties van derden. We gebruiken OS-Copilot om FRIDAY te creëren, een zelfverbeterend belichaamd agent voor het automatiseren van algemene computertaken. Op GAIA, een benchmark voor algemene AI-assistenten, presteert FRIDAY 35% beter dan eerdere methoden, wat sterke generalisatie naar onbekende applicaties laat zien via opgebouwde vaardigheden uit eerdere taken. We presenteren ook numeriek en kwantitatief bewijs dat FRIDAY leert om Excel en Powerpoint te beheersen en zichzelf te verbeteren met minimale begeleiding. Ons OS-Copilot-raamwerk en empirische bevindingen bieden infrastructuur en inzichten voor toekomstig onderzoek naar meer capabele en algemene computeragents.
English
Autonomous interaction with the computer has been a longstanding challenge
with great potential, and the recent proliferation of large language models
(LLMs) has markedly accelerated progress in building digital agents. However,
most of these agents are designed to interact with a narrow domain, such as a
specific software or website. This narrow focus constrains their applicability
for general computer tasks. To this end, we introduce OS-Copilot, a framework
to build generalist agents capable of interfacing with comprehensive elements
in an operating system (OS), including the web, code terminals, files,
multimedia, and various third-party applications. We use OS-Copilot to create
FRIDAY, a self-improving embodied agent for automating general computer tasks.
On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods
by 35%, showcasing strong generalization to unseen applications via accumulated
skills from previous tasks. We also present numerical and quantitative evidence
that FRIDAY learns to control and self-improve on Excel and Powerpoint with
minimal supervision. Our OS-Copilot framework and empirical findings provide
infrastructure and insights for future research toward more capable and
general-purpose computer agents.