Агент ПК: Пока вы спите, искусственный интеллект работает - когнитивное путешествие в цифровой мир.
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
December 23, 2024
Авторы: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu
cs.AI
Аннотация
Представьте мир, где искусственный интеллект может обрабатывать вашу работу, пока вы спите - организовывать ваши исследовательские материалы, составлять отчет или создавать презентацию, которая вам нужна на следующий день. Однако, хотя текущие цифровые агенты могут выполнять простые задачи, им далеко до способности справляться с сложной реальной работой, которую люди регулярно выполняют. Мы представляем PC Agent, систему искусственного интеллекта, которая демонстрирует важный шаг к этому видению через передачу человеческого когнитивного процесса. Наш ключевой инсайт заключается в том, что путь от выполнения простых "задач" к обработке сложной "работы" заключается в эффективном захвате и изучении человеческих когнитивных процессов во время использования компьютера. Для проверки этой гипотезы мы представляем три ключевых инновации: (1) PC Tracker, легкая инфраструктура, которая эффективно собирает высококачественные траектории взаимодействия человека с компьютером с полным когнитивным контекстом; (2) двухэтапный конвейер завершения когнитивного процесса, который преобразует сырые данные взаимодействия в богатые когнитивные траектории, завершая семантику действий и мыслительные процессы; и (3) мультиагентная система, объединяющая агента планирования для принятия решений с агентом обоснования для надежного визуального обоснования. Наши предварительные эксперименты по созданию презентаций в PowerPoint показывают, что сложные возможности цифровой работы могут быть достигнуты с небольшим количеством высококачественных когнитивных данных - PC Agent, обученный всего на 133 когнитивных траекториях, способен обрабатывать сложные сценарии работы, включающие до 50 шагов в различных приложениях. Это демонстрирует эффективность нашего подхода к данным, подчеркивая, что ключ к обучению способных цифровых агентов заключается в сборе человеческих когнитивных данных. Публикуя нашу полную структуру, включая инфраструктуру сбора данных и методы завершения когнитивного процесса, мы стремимся снизить барьеры для исследовательского сообщества в разработке действительно способных цифровых агентов.
English
Imagine a world where AI can handle your work while you sleep - organizing
your research materials, drafting a report, or creating a presentation you need
for tomorrow. However, while current digital agents can perform simple tasks,
they are far from capable of handling the complex real-world work that humans
routinely perform. We present PC Agent, an AI system that demonstrates a
crucial step toward this vision through human cognition transfer. Our key
insight is that the path from executing simple "tasks" to handling complex
"work" lies in efficiently capturing and learning from human cognitive
processes during computer use. To validate this hypothesis, we introduce three
key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently
collects high-quality human-computer interaction trajectories with complete
cognitive context; (2) a two-stage cognition completion pipeline that
transforms raw interaction data into rich cognitive trajectories by completing
action semantics and thought processes; and (3) a multi-agent system combining
a planning agent for decision-making with a grounding agent for robust visual
grounding. Our preliminary experiments in PowerPoint presentation creation
reveal that complex digital work capabilities can be achieved with a small
amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive
trajectories, can handle sophisticated work scenarios involving up to 50 steps
across multiple applications. This demonstrates the data efficiency of our
approach, highlighting that the key to training capable digital agents lies in
collecting human cognitive data. By open-sourcing our complete framework,
including the data collection infrastructure and cognition completion methods,
we aim to lower the barriers for the research community to develop truly
capable digital agents.Summary
AI-Generated Summary