UI-Ins: Улучшение привязки к графическому интерфейсу с помощью многоперспективного рассуждения в форме инструкций

Аннотация

Граундинг графического интерфейса (GUI), который преобразует инструкции на естественном языке в actionable элементы интерфейса, является ключевой способностью GUI-агентов. Предыдущие работы в основном рассматривают инструкции как статический прокси пользовательского намерения, упуская из виду влияние разнообразия и качества инструкций на производительность граундинга. В результате тщательного анализа существующих датасетов граундинга мы обнаружили 23,3% дефектов в их инструкциях и показали, что использование разнообразия инструкций на этапе вывода дает до 76% относительного улучшения производительности. В данной статье мы представляем парадигму Instruction-as-Reasoning, трактующую инструкции как динамические аналитические пути, предлагающие различные перспективы и позволяющие модели выбирать наиболее эффективный путь в процессе рассуждений. Для достижения этого мы предлагаем двухэтапную框架 обучения: supervised fine-tuning (SFT) на синтезированных разнообразных инструкциях для формирования многоперспективного мышления, с последующим reinforcement learning (RL) для оптимизации выбора и композиции путей. Наши итоговые модели UI-Ins-7B и UI-Ins-32B достигают state-of-the-art результатов на пяти сложных бенчмарках граундинга и демонстрируют emergent reasoning, выборочно комбинируя и синтезируя новые инструкционные пути на этапе вывода. В частности, UI-Ins-32B достигает наилучшей точности граундинга: 87,3% на UI-I2E-Bench, 57,0% на ScreenSpot-Pro и 84,9% на MMBench-GUI L2. Кроме того, наша модель демонстрирует сильный агентный потенциал, достигая 74,1% успеха на AndroidWorld при использовании UI-Ins-7B в качестве исполнителя. Наш глубинный анализ выявляет дополнительные инсайты, такие как формулирование рассуждений для усиления, а не препятствования производительности граундинга, и как наш метод смягчает коллапс политик в框架 SFT+RL. Весь код и чекпоинты моделей будут публично доступны по адресу https://github.com/alibaba/UI-Ins.

English

GUI grounding, which maps natural-language instructions to actionable UI elements, is a core capability of GUI agents. Prior works largely treats instructions as a static proxy for user intent, overlooking the impact of instruction diversity and quality on grounding performance. Through a careful investigation of existing grounding datasets, we find a 23.3% flaw rate in their instructions and show that inference-time exploitation of instruction diversity yields up to a substantial 76% relative performance improvement. In this paper, we introduce the Instruction-as-Reasoning paradigm, treating instructions as dynamic analytical pathways that offer distinct perspectives and enabling the model to select the most effective pathway during reasoning. To achieve this, we propose a two-stage training framework: supervised fine-tuning (SFT) on synthesized, diverse instructions to instill multi-perspective reasoning, followed by reinforcement learning (RL) to optimize pathway selection and composition. Our resulting models, UI-Ins-7B and UI-Ins-32B, achieve state-of-the-art results on five challenging grounding benchmarks and exhibit emergent reasoning, selectively composing and synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model demonstrates strong agentic potential, achieving a 74.1% success rate on AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals additional insights such as how reasoning can be formulated to enhance rather than hinder grounding performance, and how our method mitigates policy collapse in the SFT+RL framework. All code and model checkpoints will be publicly released in https://github.com/alibaba/UI-Ins.

UI-Ins: Улучшение привязки к графическому интерфейсу с помощью многоперспективного рассуждения в форме инструкций

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

Аннотация

Support