ChatPaper.aiChatPaper

Покрытие пространства человеческих действий при работе с компьютером: синтез данных и бенчмарк

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

May 12, 2026
Авторы: Miaosen Zhang, Xiaohan Zhao, Zhihong Tan, Zhou Huoshen, Yijia Fan, Yifan Yang, Kai Qiu, Bei Liu, Justin Wagle, Chenzhong Yin, Mingxi Cheng, Ji Li, Qi Dai, Chong Luo, Xu Yang, Xin Geng, Baining Guo
cs.AI

Аннотация

Агенты, использующие компьютер (Computer-use agents, CUA), автоматизируют работу на экране, как показано на примере GPT-5.4 и Claude. Однако их надежность при сложных, редко встречающихся взаимодействиях все еще низка, что ограничивает доверие пользователей. Наш анализ случаев сбоев в работе продвинутых моделей указывает на наличие долгохвостого распределения в операциях с графическим интерфейсом (GUI), где относительно небольшая доля сложных и разнообразных взаимодействий приходится на непропорционально большую долю неудач при выполнении задач. Мы предполагаем, что эта проблема в значительной степени связана с нехваткой данных для сложных взаимодействий. Для решения этой проблемы мы предлагаем новый бенчмарк CUActSpot для оценки способностей моделей к сложным взаимодействиям в пяти модальностях: GUI, текст, таблица, холст и естественное изображение, а также широкий спектр действий (клик, перетаскивание, рисование и т.д.), охватывающий более широкий диапазон типов взаимодействий, чем предыдущие бенчмарки, ориентированные в основном на клики по элементам GUI. Мы также разработали конвейер синтеза данных на основе рендеринга: сцены автоматически генерируются для каждой модальности, фиксируются скриншоты и координаты элементов, а LLM создает соответствующие инструкции и трассы действий. После обучения на этом корпусе наша модель Phi-Ground-Any-4B превосходит модели с открытым исходным кодом с менее чем 32 миллиардами параметров. Мы опубликуем наш бенчмарк, данные, код и модели по адресу https://github.com/microsoft/Phi-Ground.git.
English
Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git
PDF101May 14, 2026