Couverture de l'espace des actions humaines pour l'utilisation d'ordinateurs : synthèse de données et benchmark

Résumé

Les agents d'utilisation d'ordinateur (CUAs) automatisent le travail à l'écran, comme l'illustrent GPT-5.4 et Claude. Cependant, leur fiabilité dans les interactions complexes et peu fréquentes reste faible, ce qui limite la confiance des utilisateurs. Notre analyse des cas d'échec de modèles avancés suggère un modèle de longue traîne dans les opérations d'interface graphique (GUI), où une fraction relativement faible d'interactions complexes et diverses est responsable d'une part disproportionnée des échecs de tâches. Nous émettons l'hypothèse que ce problème provient en grande partie de la rareté des données pour les interactions complexes. Pour résoudre ce problème, nous proposons un nouveau benchmark, CUActSpot, pour évaluer les capacités des modèles sur des interactions complexes couvrant cinq modalités : interface graphique, texte, tableau, canevas et image naturelle, ainsi qu'une variété d'actions (clic, glisser, dessiner, etc.), couvrant un éventail plus large de types d'interactions que les benchmarks antérieurs centrés sur le clic qui se concentrent principalement sur les widgets graphiques. Nous concevons également un pipeline de synthèse de données basé sur un rendu : des scènes sont générées automatiquement pour chaque modalité, des captures d'écran et des coordonnées d'éléments sont enregistrées, et un LLM produit des instructions et des traces d'actions correspondantes. Après un entraînement sur ce corpus, notre modèle Phi-Ground-Any-4B surpasse les modèles open-source de moins de 32 milliards de paramètres. Nous publierons notre benchmark, nos données, notre code et nos modèles à l'adresse https://github.com/microsoft/Phi-Ground.git.

English

Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git

Couverture de l'espace des actions humaines pour l'utilisation d'ordinateurs : synthèse de données et benchmark

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

Résumé

Support