OS-Copilot: Naar algemene computeragentschappen met zelfverbetering

Samenvatting

Autonome interactie met de computer is al lang een uitdaging met groot potentieel, en de recente opkomst van grote taalmodellen (LLM's) heeft de vooruitgang in het bouwen van digitale agents aanzienlijk versneld. De meeste van deze agents zijn echter ontworpen om te interageren met een beperkt domein, zoals een specifiek softwareprogramma of website. Deze beperkte focus beperkt hun toepasbaarheid voor algemene computertaken. Daarom introduceren we OS-Copilot, een raamwerk om generalistische agents te bouwen die in staat zijn om te communiceren met uitgebreide elementen in een besturingssysteem (OS), waaronder het web, code-terminals, bestanden, multimedia en diverse applicaties van derden. We gebruiken OS-Copilot om FRIDAY te creëren, een zelfverbeterend belichaamd agent voor het automatiseren van algemene computertaken. Op GAIA, een benchmark voor algemene AI-assistenten, presteert FRIDAY 35% beter dan eerdere methoden, wat sterke generalisatie naar onbekende applicaties laat zien via opgebouwde vaardigheden uit eerdere taken. We presenteren ook numeriek en kwantitatief bewijs dat FRIDAY leert om Excel en Powerpoint te beheersen en zichzelf te verbeteren met minimale begeleiding. Ons OS-Copilot-raamwerk en empirische bevindingen bieden infrastructuur en inzichten voor toekomstig onderzoek naar meer capabele en algemene computeragents.

English

Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

OS-Copilot: Naar algemene computeragentschappen met zelfverbetering

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Samenvatting

Support