GUI-360: 컴퓨터 사용 에이전트를 위한 포괄적인 데이터셋 및 벤치마크
GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents
November 6, 2025
저자: Jian Mu, Chaoyun Zhang, Chiming Ni, Lu Wang, Bo Qiao, Kartik Mathur, Qianhui Wu, Yuhang Xie, Xiaojun Ma, Mengyu Zhou, Si Qin, Liqun Li, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
초록
GUI-360^circ는 컴퓨터 사용 에이전트(CUAs)의 발전을 위해 설계된 대규모 종합 데이터셋 및 벤치마크 제품군을 소개합니다. CUAs는 고유한 과제를 제시하며 세 가지 지속적인 격차에 의해 제약을 받습니다: 실제 CUA 작업의 부족, 다중 모드 트랙토리(궤적)에 대한 자동화된 수집 및 주석 처리 파이프라인의 부재, 그리고 GUI 기반 이해(GUI grounding), 화면 구문 분석(screen parsing), 행동 예측(action prediction)을 종합적으로 평가하는 통합 벤치마크의 부재가 그것입니다.
GUI-360^circ는 LLM(대형 언어 모델)을 활용한, 대부분 자동화된 파이프라인(질의 출처 확보, 환경 템플릿 구축, 작업 인스턴스화, 일괄 실행, LLM 기반 품질 필터링)으로 이러한 격차를 해소합니다. 공개된 코퍼스에는 인기 있는 Windows 오피스 애플리케이션 내 수천 개의 트랙토리에서 실행된 120만 개 이상의 행동 단계가 포함되어 있으며, 전체 해상도 스크린샷, 가능한 경우 접근성 메타데이터, 구체화된 목표, 중간 추론 과정, 그리고 성공 및 실패한 행동 트랙토리를 담고 있습니다. 본 데이터셋은 GUI 기반 이해, 화면 구문 분석, 행동 예측이라는 세 가지 표준 작업과 현대적 에이전트 설계를 반영하는 하이브리드 GUI+API 행동 공간을 지원합니다. GUI-360^circ에서 최첨단 비전-언어 모델을 벤치마킹한 결과, 기반 이해와 행동 예측 분야에서 현저한 즉시 사용 수준의 단점이 드러났습니다; 지도 미세 조정(Supervised Fine-Tuning)과 강화 학습은 상당한 성능 향상을 가져왔지만 인간 수준의 신뢰도에는 미치지 못했습니다. 우리는 재현 가능한 연구와 강력한 데스크톱 CUA 개발 가속화를 위해 GUI-360^circ 및 관련 코드를 공개합니다.
전체 데이터셋은 https://huggingface.co/datasets/vyokky/GUI-360에서 공개되었습니다.
English
We introduce GUI-360^circ, a large-scale, comprehensive dataset and
benchmark suite designed to advance computer-using agents (CUAs). CUAs present
unique challenges and is constrained by three persistent gaps: a scarcity of
real-world CUA tasks, the lack of automated collection-and-annotation pipelines
for multi-modal trajectories, and the absence of a unified benchmark that
jointly evaluates GUI grounding, screen parsing, and action prediction.
GUI-360^circ addresses these gaps with an LLM-augmented, largely automated
pipeline for query sourcing, environment-template construction, task
instantiation, batched execution, and LLM-driven quality filtering. The
released corpus contains over 1.2M executed action steps across thousands of
trajectories in popular Windows office applications, and includes
full-resolution screenshots, accessibility metadata when available,
instantiated goals, intermediate reasoning traces, and both successful and
failed action trajectories. The dataset supports three canonical tasks, GUI
grounding, screen parsing, and action prediction, and a hybrid GUI+API action
space that reflects modern agent designs. Benchmarking state-of-the-art
vision--language models on GUI-360^circ reveals substantial out-of-the-box
shortcomings in grounding and action prediction; supervised fine-tuning and
reinforcement learning yield significant gains but do not close the gap to
human-level reliability. We release GUI-360^circ and accompanying code to
facilitate reproducible research and accelerate progress on robust desktop
CUAs.
The full dataset has been made public on
https://huggingface.co/datasets/vyokky/GUI-360.