Agente de PC: Mientras Duermes, la IA Trabaja -- Un Viaje Cognitivo al Mundo Digital
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
December 23, 2024
Autores: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI
Resumen
Imagina un mundo donde la IA pueda manejar tu trabajo mientras duermes, organizando tus materiales de investigación, redactando un informe o creando una presentación que necesitas para mañana. Sin embargo, si bien los agentes digitales actuales pueden realizar tareas simples, están lejos de ser capaces de manejar el trabajo complejo del mundo real que los humanos realizan rutinariamente. Presentamos PC Agent, un sistema de IA que muestra un paso crucial hacia esta visión a través de la transferencia de cognición humana. Nuestra idea clave es que el camino desde la ejecución de "tareas" simples hasta el manejo de "trabajo" complejo radica en capturar de manera eficiente y aprender de los procesos cognitivos humanos durante el uso de la computadora. Para validar esta hipótesis, introducimos tres innovaciones clave: (1) PC Tracker, una infraestructura liviana que recopila de manera eficiente trayectorias de interacción humano-computadora de alta calidad con un contexto cognitivo completo; (2) un proceso de completación de cognición de dos etapas que transforma datos de interacción crudos en trayectorias cognitivas ricas al completar la semántica de acciones y los procesos de pensamiento; y (3) un sistema multiagente que combina un agente de planificación para la toma de decisiones con un agente de fundamentación para una fundamentación visual sólida. Nuestros experimentos preliminares en la creación de presentaciones de PowerPoint revelan que se pueden lograr capacidades de trabajo digital complejas con una pequeña cantidad de datos cognitivos de alta calidad: PC Agent, entrenado con solo 133 trayectorias cognitivas, puede manejar escenarios de trabajo sofisticados que implican hasta 50 pasos en múltiples aplicaciones. Esto demuestra la eficiencia de datos de nuestro enfoque, resaltando que la clave para entrenar agentes digitales capaces radica en la recopilación de datos cognitivos humanos. Al compartir de forma abierta nuestro marco completo, incluida la infraestructura de recopilación de datos y los métodos de completación de cognición, nuestro objetivo es reducir las barreras para que la comunidad de investigación desarrolle agentes digitales verdaderamente capaces.
English
Imagine a world where AI can handle your work while you sleep - organizing
your research materials, drafting a report, or creating a presentation you need
for tomorrow. However, while current digital agents can perform simple tasks,
they are far from capable of handling the complex real-world work that humans
routinely perform. We present PC Agent, an AI system that demonstrates a
crucial step toward this vision through human cognition transfer. Our key
insight is that the path from executing simple "tasks" to handling complex
"work" lies in efficiently capturing and learning from human cognitive
processes during computer use. To validate this hypothesis, we introduce three
key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently
collects high-quality human-computer interaction trajectories with complete
cognitive context; (2) a two-stage cognition completion pipeline that
transforms raw interaction data into rich cognitive trajectories by completing
action semantics and thought processes; and (3) a multi-agent system combining
a planning agent for decision-making with a grounding agent for robust visual
grounding. Our preliminary experiments in PowerPoint presentation creation
reveal that complex digital work capabilities can be achieved with a small
amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive
trajectories, can handle sophisticated work scenarios involving up to 50 steps
across multiple applications. This demonstrates the data efficiency of our
approach, highlighting that the key to training capable digital agents lies in
collecting human cognitive data. By open-sourcing our complete framework,
including the data collection infrastructure and cognition completion methods,
we aim to lower the barriers for the research community to develop truly
capable digital agents.