Покрытие пространства человеческих действий при работе с компьютером: синтез данных и бенчмарк

Аннотация

Агенты, использующие компьютер (Computer-use agents, CUA), автоматизируют работу на экране, как показано на примере GPT-5.4 и Claude. Однако их надежность при сложных, редко встречающихся взаимодействиях все еще низка, что ограничивает доверие пользователей. Наш анализ случаев сбоев в работе продвинутых моделей указывает на наличие долгохвостого распределения в операциях с графическим интерфейсом (GUI), где относительно небольшая доля сложных и разнообразных взаимодействий приходится на непропорционально большую долю неудач при выполнении задач. Мы предполагаем, что эта проблема в значительной степени связана с нехваткой данных для сложных взаимодействий. Для решения этой проблемы мы предлагаем новый бенчмарк CUActSpot для оценки способностей моделей к сложным взаимодействиям в пяти модальностях: GUI, текст, таблица, холст и естественное изображение, а также широкий спектр действий (клик, перетаскивание, рисование и т.д.), охватывающий более широкий диапазон типов взаимодействий, чем предыдущие бенчмарки, ориентированные в основном на клики по элементам GUI. Мы также разработали конвейер синтеза данных на основе рендеринга: сцены автоматически генерируются для каждой модальности, фиксируются скриншоты и координаты элементов, а LLM создает соответствующие инструкции и трассы действий. После обучения на этом корпусе наша модель Phi-Ground-Any-4B превосходит модели с открытым исходным кодом с менее чем 32 миллиардами параметров. Мы опубликуем наш бенчмарк, данные, код и модели по адресу https://github.com/microsoft/Phi-Ground.git.

English

Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git

Покрытие пространства человеческих действий при работе с компьютером: синтез данных и бенчмарк

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

Аннотация

Support