Abarcando el espacio de acciones humanas para el uso de computadora: Síntesis de datos y benchmark
Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
May 12, 2026
Autores: Miaosen Zhang, Xiaohan Zhao, Zhihong Tan, Zhou Huoshen, Yijia Fan, Yifan Yang, Kai Qiu, Bei Liu, Justin Wagle, Chenzhong Yin, Mingxi Cheng, Ji Li, Qi Dai, Chong Luo, Xu Yang, Xin Geng, Baining Guo
cs.AI
Resumen
Los agentes de uso de computadora (CUA) automatizan tareas en pantalla, como lo ilustran GPT-5.4 y Claude. Sin embargo, su fiabilidad en interacciones complejas y de baja frecuencia sigue siendo deficiente, lo que limita la confianza del usuario. Nuestro análisis de casos de fallo en modelos avanzados sugiere un patrón de cola larga en las operaciones de interfaz gráfica de usuario (GUI), donde una fracción relativamente pequeña de interacciones complejas y diversas explica una proporción desproporcionada de los fallos en las tareas. Planteamos la hipótesis de que este problema se debe en gran medida a la escasez de datos para interacciones complejas. Para abordarlo, proponemos un nuevo benchmark, CUActSpot, para evaluar las capacidades de los modelos en interacciones complejas en cinco modalidades: GUI, texto, tabla, lienzo e imagen natural, así como una variedad de acciones (clic, arrastrar, dibujar, etc.), cubriendo un rango más amplio de tipos de interacción que los benchmarks previos centrados en clics, que se enfocan principalmente en widgets de GUI. También diseñamos un pipeline de síntesis de datos basado en renderizador: las escenas se generan automáticamente para cada modalidad, se registran capturas de pantalla y coordenadas de elementos, y un LLM produce instrucciones y trazas de acción coincidentes. Tras el entrenamiento en este corpus, nuestro Phi-Ground-Any-4B supera a los modelos de código abierto con menos de 32B parámetros. Publicaremos nuestro benchmark, datos, código y modelos en https://github.com/microsoft/Phi-Ground.git.
English
Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git