OS-Copilot : Vers des agents informatiques généralistes dotés d’auto-amélioration
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
February 12, 2024
Auteurs: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong
cs.AI
Résumé
L'interaction autonome avec l'ordinateur constitue un défi de longue date doté d'un grand potentiel, et la récente prolifération des modèles de langage à grande échelle (LLMs) a considérablement accéléré les progrès dans la construction d'agents numériques. Cependant, la plupart de ces agents sont conçus pour interagir avec un domaine restreint, tel qu'un logiciel ou un site web spécifique. Cette focalisation étroite limite leur applicabilité pour des tâches informatiques générales. À cette fin, nous introduisons OS-Copilot, un cadre pour construire des agents généralistes capables d'interagir avec des éléments complets d'un système d'exploitation (OS), incluant le web, les terminaux de code, les fichiers, les multimédias et diverses applications tierces. Nous utilisons OS-Copilot pour créer FRIDAY, un agent incarné auto-améliorant pour l'automatisation de tâches informatiques générales. Sur GAIA, un benchmark d'assistants IA généralistes, FRIDAY surpasse les méthodes précédentes de 35%, démontrant une forte généralisation à des applications non vues grâce à l'accumulation de compétences issues de tâches antérieures. Nous présentons également des preuves numériques et quantitatives que FRIDAY apprend à contrôler et à s'auto-améliorer sur Excel et Powerpoint avec une supervision minimale. Notre cadre OS-Copilot et nos résultats empiriques fournissent une infrastructure et des insights pour des recherches futures visant à développer des agents informatiques plus performants et polyvalents.
English
Autonomous interaction with the computer has been a longstanding challenge
with great potential, and the recent proliferation of large language models
(LLMs) has markedly accelerated progress in building digital agents. However,
most of these agents are designed to interact with a narrow domain, such as a
specific software or website. This narrow focus constrains their applicability
for general computer tasks. To this end, we introduce OS-Copilot, a framework
to build generalist agents capable of interfacing with comprehensive elements
in an operating system (OS), including the web, code terminals, files,
multimedia, and various third-party applications. We use OS-Copilot to create
FRIDAY, a self-improving embodied agent for automating general computer tasks.
On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods
by 35%, showcasing strong generalization to unseen applications via accumulated
skills from previous tasks. We also present numerical and quantitative evidence
that FRIDAY learns to control and self-improve on Excel and Powerpoint with
minimal supervision. Our OS-Copilot framework and empirical findings provide
infrastructure and insights for future research toward more capable and
general-purpose computer agents.