Abdeckung des menschlichen Aktionsraums für die Computernutzung: Datensynthese und Benchmark

Zusammenfassung

Computer-Use-Agenten (CUA) automatisieren die Arbeit am Bildschirm, wie an GPT-5.4 und Claude gezeigt wird. Allerdings ist ihre Zuverlässigkeit bei komplexen, selten auftretenden Interaktionen noch schlecht, was das Vertrauen der Nutzer einschränkt. Unsere Analyse von Fehlerfällen aus fortschrittlichen Modellen deutet auf ein Long-Tail-Muster in GUI-Operationen hin, bei dem ein relativ kleiner Anteil komplexer und vielfältiger Interaktionen für einen unverhältnismäßig großen Anteil von Aufgabenfehlern verantwortlich ist. Wir stellen die Hypothese auf, dass dieses Problem hauptsächlich auf die Knappheit von Daten für komplexe Interaktionen zurückzuführen ist. Um dieses Problem zu adressieren, schlagen wir einen neuen Benchmark namens CUActSpot vor, der die Fähigkeiten von Modellen bei komplexen Interaktionen über fünf Modalitäten hinweg bewertet: GUI, Text, Tabelle, Canvas und natürliches Bild, sowie eine Vielzahl von Aktionen (Klicken, Ziehen, Zeichnen usw.). Dies deckt ein breiteres Spektrum an Interaktionstypen ab als frühere klickzentrierte Benchmarks, die sich hauptsächlich auf GUI-Widgets konzentrieren. Wir entwerfen außerdem eine renderer-basierte Datensynthese-Pipeline: Szenen werden automatisch für jede Modalität generiert, Screenshots und Elementkoordinaten aufgezeichnet, und ein LLM erstellt passende Anweisungen und Aktionsabläufe. Nach dem Training auf diesem Korpus übertrifft unser Phi-Ground-Any-4B Open-Source-Modelle mit weniger als 32B Parametern. Wir werden unseren Benchmark, Daten, Code und Modelle unter https://github.com/microsoft/Phi-Ground.git veröffentlichen.

English

Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git

Abdeckung des menschlichen Aktionsraums für die Computernutzung: Datensynthese und Benchmark

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

Zusammenfassung

Support