ChatPaper.aiChatPaper

PC Agent: Terwijl Jij Slaapt, Werkt AI -- Een Cognitieve Reis in de Digitale Wereld

PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

December 23, 2024
Auteurs: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI

Samenvatting

Stel je een wereld voor waarin AI je werk kan afhandelen terwijl je slaapt - het organiseren van je onderzoeksmaterialen, het opstellen van een rapport, of het maken van een presentatie die je morgen nodig hebt. Echter, hoewel huidige digitale agenten eenvoudige taken kunnen uitvoeren, zijn ze verre van in staat om het complexe werk in de echte wereld te beheren dat mensen routinematig uitvoeren. Wij presenteren PC Agent, een AI-systeem dat een cruciale stap naar deze visie demonstreert door overdracht van menselijke cognitie. Ons belangrijkste inzicht is dat de weg van het uitvoeren van eenvoudige "taken" naar het beheren van complex "werk" ligt in het efficiënt vastleggen en leren van menselijke cognitieve processen tijdens computergebruik. Om deze hypothese te valideren, introduceren we drie belangrijke innovaties: (1) PC Tracker, een lichtgewicht infrastructuur die efficiënt hoogwaardige mens-computerinteractietrajecten verzamelt met volledige cognitieve context; (2) een tweefasen cognitievoltooiingspijplijn die ruwe interactiegegevens transformeert in rijke cognitieve trajecten door actiesemantiek en denkprocessen te voltooien; en (3) een multi-agent systeem dat een planningsagent voor besluitvorming combineert met een grondingsagent voor robuuste visuele gronding. Onze voorlopige experimenten in het maken van PowerPoint-presentaties tonen aan dat complexe digitale werkcapaciteiten kunnen worden bereikt met een kleine hoeveelheid hoogwaardige cognitieve gegevens - PC Agent, getraind op slechts 133 cognitieve trajecten, kan geavanceerde werksituaties aan met maximaal 50 stappen over meerdere toepassingen. Dit toont de gegevensefficiëntie van onze aanpak aan, waarbij wordt benadrukt dat de sleutel tot het trainen van capabele digitale agenten ligt in het verzamelen van menselijke cognitieve gegevens. Door ons volledige raamwerk, inclusief de infrastructuur voor gegevensverzameling en methoden voor cognitievoltooiing, open-source te maken, streven we ernaar de barrières voor de onderzoeksgemeenschap te verlagen om echt capabele digitale agenten te ontwikkelen.
English
Imagine a world where AI can handle your work while you sleep - organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple "tasks" to handling complex "work" lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.
PDF142January 9, 2026