UI-Ins: 다중 관점 명령어-추론을 통한 GUI 기반 작업 성능 향상
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
저자: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
초록
GUI 접지(GUI grounding)는 자연어 명령어를 실행 가능한 UI 요소로 매핑하는 GUI 에이전트의 핵심 능력입니다. 기존 연구들은 대부분 명령어를 사용자 의도의 정적 대리자로 취급하여, 명령어의 다양성과 질이 접지 성능에 미치는 영향을 간과해 왔습니다. 기존 접지 데이터셋을 면밀히 조사한 결과, 해당 데이터셋의 명령어에 23.3%의 결함률이 존재함을 발견했으며, 추론 시점에 명령어 다양성을 활용하면 최대 76%라는 상당한 상대 성능 향상을 얻을 수 있음을 보여줍니다. 본 논문에서는 명령어를 서로 다른 관점을 제공하는 동적 분석 경로로 간주하고, 추론 과정에서 모델이 가장 효과적인 경로를 선택할 수 있도록 하는 Instruction-as-Reasoning 패러다임을 소개합니다. 이를 위해 두 단계의 학습 프레임워크를 제안합니다: 합성된 다양한 명령어에 대한 지도 미세 조정(SFT)을 통해 다중 관점 추론 능력을 함양하고, 이어서 강화 학습(RL)을 통해 경로 선택 및 구성을 최적화합니다. 이를 통해 탄생한 우리의 모델인 UI-Ins-7B와 UI-Ins-32B는 5개의 도전적인 접지 벤치마크에서 최첨단 성능을 달성하고, 추론 시 새로운 명령어 경로를 선택적으로 구성 및 합성하는 창발적 추론 능력을 보여줍니다. 특히 UI-Ins-32B는 UI-I2E-Bench에서 87.3%, ScreenSpot-Pro에서 57.0%, MMBench-GUI L2에서 84.9%의 점수를 기록하여 최고의 접지 정확도를 달성했습니다. 또한 우리 모델은 강력한 에이전트 능력을 보여주며, UI-Ins-7B를 실행기로 사용하여 AndroidWorld에서 74.1%의 성공률을 달성했습니다. 심층 분석을 통해 추론이 접지 성능을 저해하지 않고 향상시키도록 어떻게 공식화될 수 있는지, 그리고 우리의 방법이 SFT+RL 프레임워크에서 정책 붕괴를 어떻게 완화하는지 등의 추가적인 통찰력을 얻었습니다. 모든 코드와 모델 체크포인트는 https://github.com/alibaba/UI-Ins 에 공개될 예정입니다.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.