ChatPaper.aiChatPaper

PC-Agent: Während Sie schlafen, arbeitet KI - Eine kognitive Reise in die digitale Welt

PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

December 23, 2024
Autoren: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI

Zusammenfassung

Stellen Sie sich eine Welt vor, in der KI Ihre Arbeit erledigen kann, während Sie schlafen - Ihre Forschungsmaterialien organisieren, einen Bericht entwerfen oder eine Präsentation erstellen, die Sie für morgen benötigen. Während aktuelle digitale Agenten einfache Aufgaben ausführen können, sind sie weit davon entfernt, komplexe Arbeitsaufgaben zu bewältigen, die Menschen routinemäßig erledigen. Wir stellen PC Agent vor, ein KI-System, das einen entscheidenden Schritt in Richtung dieser Vision durch die Übertragung menschlicher Kognition darstellt. Unsere Schlüsselerkenntnis ist, dass der Weg von der Ausführung einfacher "Aufgaben" zur Bewältigung komplexer "Arbeit" darin besteht, menschliche kognitive Prozesse effizient während der Computernutzung zu erfassen und daraus zu lernen. Zur Validierung dieser Hypothese führen wir drei Schlüsselinnovationen ein: (1) PC Tracker, eine leichtgewichtige Infrastruktur, die hochwertige menschlich-computerinteraktions-Trajektorien mit vollständigem kognitivem Kontext effizient sammelt; (2) ein zweistufiger Kognitionsvollendungs-Pipeline, die Rohinteraktionsdaten in reiche kognitive Trajektorien umwandelt, indem sie Aktionssemantik und Denkprozesse vervollständigt; und (3) ein Multi-Agenten-System, das einen Planungsagenten für Entscheidungsfindung mit einem Verankerungsagenten für robuste visuelle Verankerung kombiniert. Unsere vorläufigen Experimente zur Erstellung von PowerPoint-Präsentationen zeigen, dass komplexe digitale Arbeitsfähigkeiten mit einer geringen Menge hochwertiger kognitiver Daten erreicht werden können - PC Agent, trainiert mit nur 133 kognitiven Trajektorien, kann anspruchsvolle Arbeitsszenarien mit bis zu 50 Schritten über mehrere Anwendungen hinweg bewältigen. Dies zeigt die Dateneffizienz unseres Ansatzes und betont, dass der Schlüssel zur Schulung fähiger digitaler Agenten darin liegt, menschliche kognitive Daten zu sammeln. Durch die Open-Source-Bereitstellung unseres vollständigen Frameworks, einschließlich der Daten-Erfassungsinfrastruktur und der Kognitionsvollendungsmethoden, zielen wir darauf ab, die Hürden für die Forschungsgemeinschaft zu senken, um wirklich fähige digitale Agenten zu entwickeln.
English
Imagine a world where AI can handle your work while you sleep - organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple "tasks" to handling complex "work" lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.

Summary

AI-Generated Summary

PDF122December 24, 2024