Agent PC : Pendant que vous dormez, l'IA travaille -- Un voyage cognitif dans le monde numérique
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
December 23, 2024
Auteurs: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI
Résumé
Imaginez un monde où l'IA peut gérer votre travail pendant que vous dormez - organiser vos matériaux de recherche, rédiger un rapport, ou créer une présentation dont vous avez besoin pour demain. Cependant, bien que les agents numériques actuels puissent effectuer des tâches simples, ils sont loin d'être capables de gérer le travail complexe du monde réel que les humains effectuent régulièrement. Nous présentons PC Agent, un système d'IA qui illustre une étape cruciale vers cette vision à travers le transfert de la cognition humaine. Notre insight clé est que le chemin de l'exécution de simples "tâches" à la gestion de "travaux" complexes réside dans la capture efficace et l'apprentissage des processus cognitifs humains lors de l'utilisation de l'ordinateur. Pour valider cette hypothèse, nous introduisons trois innovations clés : (1) PC Tracker, une infrastructure légère qui collecte efficacement des trajectoires d'interaction homme-ordinateur de haute qualité avec un contexte cognitif complet ; (2) un pipeline de complétion de cognition en deux étapes qui transforme les données brutes d'interaction en trajectoires cognitives riches en complétant les sémantiques d'action et les processus de pensée ; et (3) un système multi-agent combinant un agent de planification pour la prise de décision avec un agent d'ancrage pour un ancrage visuel robuste. Nos expériences préliminaires dans la création de présentations PowerPoint révèlent que des capacités de travail numérique complexes peuvent être atteintes avec une petite quantité de données cognitives de haute qualité - PC Agent, formé sur seulement 133 trajectoires cognitives, peut gérer des scénarios de travail sophistiqués impliquant jusqu'à 50 étapes à travers plusieurs applications. Cela démontre l'efficacité des données de notre approche, soulignant que la clé pour former des agents numériques capables réside dans la collecte de données cognitives humaines. En rendant notre cadre complet open-source, y compris l'infrastructure de collecte de données et les méthodes de complétion de cognition, nous visons à abaisser les barrières pour que la communauté de recherche développe des agents numériques vraiment capables.
English
Imagine a world where AI can handle your work while you sleep - organizing
your research materials, drafting a report, or creating a presentation you need
for tomorrow. However, while current digital agents can perform simple tasks,
they are far from capable of handling the complex real-world work that humans
routinely perform. We present PC Agent, an AI system that demonstrates a
crucial step toward this vision through human cognition transfer. Our key
insight is that the path from executing simple "tasks" to handling complex
"work" lies in efficiently capturing and learning from human cognitive
processes during computer use. To validate this hypothesis, we introduce three
key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently
collects high-quality human-computer interaction trajectories with complete
cognitive context; (2) a two-stage cognition completion pipeline that
transforms raw interaction data into rich cognitive trajectories by completing
action semantics and thought processes; and (3) a multi-agent system combining
a planning agent for decision-making with a grounding agent for robust visual
grounding. Our preliminary experiments in PowerPoint presentation creation
reveal that complex digital work capabilities can be achieved with a small
amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive
trajectories, can handle sophisticated work scenarios involving up to 50 steps
across multiple applications. This demonstrates the data efficiency of our
approach, highlighting that the key to training capable digital agents lies in
collecting human cognitive data. By open-sourcing our complete framework,
including the data collection infrastructure and cognition completion methods,
we aim to lower the barriers for the research community to develop truly
capable digital agents.Summary
AI-Generated Summary