UI-Ins: Улучшение привязки к графическому интерфейсу с помощью многоперспективного рассуждения в форме инструкций
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
Авторы: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
Аннотация
Граундинг графического интерфейса (GUI), который преобразует инструкции на естественном языке в actionable элементы интерфейса, является ключевой способностью GUI-агентов. Предыдущие работы в основном рассматривают инструкции как статический прокси пользовательского намерения, упуская из виду влияние разнообразия и качества инструкций на производительность граундинга. В результате тщательного анализа существующих датасетов граундинга мы обнаружили 23,3% дефектов в их инструкциях и показали, что использование разнообразия инструкций на этапе вывода дает до 76% относительного улучшения производительности. В данной статье мы представляем парадигму Instruction-as-Reasoning, трактующую инструкции как динамические аналитические пути, предлагающие различные перспективы и позволяющие модели выбирать наиболее эффективный путь в процессе рассуждений. Для достижения этого мы предлагаем двухэтапную框架 обучения: supervised fine-tuning (SFT) на синтезированных разнообразных инструкциях для формирования многоперспективного мышления, с последующим reinforcement learning (RL) для оптимизации выбора и композиции путей. Наши итоговые модели UI-Ins-7B и UI-Ins-32B достигают state-of-the-art результатов на пяти сложных бенчмарках граундинга и демонстрируют emergent reasoning, выборочно комбинируя и синтезируя новые инструкционные пути на этапе вывода. В частности, UI-Ins-32B достигает наилучшей точности граундинга: 87,3% на UI-I2E-Bench, 57,0% на ScreenSpot-Pro и 84,9% на MMBench-GUI L2. Кроме того, наша модель демонстрирует сильный агентный потенциал, достигая 74,1% успеха на AndroidWorld при использовании UI-Ins-7B в качестве исполнителя. Наш глубинный анализ выявляет дополнительные инсайты, такие как формулирование рассуждений для усиления, а не препятствования производительности граундинга, и как наш метод смягчает коллапс политик в框架 SFT+RL. Весь код и чекпоинты моделей будут публично доступны по адресу https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.