컴퓨터 사용을 위한 인간 행동 공간 커버링: 데이터 합성 및 벤치마크
Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
May 12, 2026
저자: Miaosen Zhang, Xiaohan Zhao, Zhihong Tan, Zhou Huoshen, Yijia Fan, Yifan Yang, Kai Qiu, Bei Liu, Justin Wagle, Chenzhong Yin, Mingxi Cheng, Ji Li, Qi Dai, Chong Luo, Xu Yang, Xin Geng, Baining Guo
cs.AI
초록
컴퓨터 사용 에이전트(CUA)는 GPT-5.4와 Claude에서 볼 수 있듯이 화면 기반 작업을 자동화한다. 그러나 복잡하고 빈도가 낮은 상호작용에서의 신뢰성은 여전히 낮아 사용자 신뢰를 제한한다. 고급 모델의 실패 사례를 분석한 결과, GUI 작업에서 롱테일 패턴이 관찰되었는데, 이는 비교적 적은 비율의 복잡하고 다양한 상호작용이 전체 작업 실패의 불균형적으로 큰 부분을 차지하는 양상이다. 우리는 이 문제가 주로 복잡한 상호작용에 대한 데이터 부족에서 비롯된다고 가정한다. 이 문제를 해결하기 위해, 우리는 GUI, 텍스트, 표, 캔버스, 자연 이미지의 다섯 가지 모달리티와 다양한 동작(클릭, 드래그, 그리기 등)에 걸쳐 복잡한 상호작용에 대한 모델의 능력을 평가하는 새로운 벤치마크 CUActSpot을 제안한다. 이는 주로 GUI 위젯에 초점을 맞춘 기존의 클릭 중심 벤치마크보다 더 넓은 범위의 상호작용 유형을 다룬다. 또한 렌더러 기반 데이터 합성 파이프라인을 설계한다. 각 모달리티에 대해 장면이 자동으로 생성되고, 스크린샷과 요소 좌표가 기록되며, LLM이 이에 맞는 명령어와 동작 흔적을 생성한다. 이 코퍼스로 훈련된 후, 우리의 Phi-Ground-Any-4B는 32B 미만의 파라미터를 가진 오픈소스 모델보다 뛰어난 성능을 보인다. 우리는 벤치마크, 데이터, 코드, 모델을 https://github.com/microsoft/Phi-Ground.git에서 공개할 예정이다.
English
Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git