UI-Ins: Mejoramiento del Anclaje en Interfaces Gráficas mediante la Instrucción como Razonamiento desde Múltiples Perspectivas
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
Autores: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
Resumen
La fundamentación de interfaces gráficas (GUI), que mapea instrucciones en lenguaje natural a elementos de interfaz de usuario accionables, es una capacidad fundamental de los agentes de GUI. Los trabajos previos tratan mayormente las instrucciones como un proxy estático de la intención del usuario, pasando por alto el impacto de la diversidad y calidad de las instrucciones en el rendimiento de la fundamentación. Mediante una investigación minuciosa de los conjuntos de datos de fundamentación existentes, encontramos una tasa de error del 23.3% en sus instrucciones y demostramos que la explotación de la diversidad de instrucciones en tiempo de inferencia produce una mejora de rendimiento relativa sustancial de hasta el 76%. En este artículo, presentamos el paradigma Instrucción-como-Razonamiento, tratando las instrucciones como vías analíticas dinámicas que ofrecen perspectivas distintas y permitiendo al modelo seleccionar la vía más efectiva durante el razonamiento. Para lograrlo, proponemos un marco de entrenamiento en dos etapas: ajuste fino supervisado (SFT) en instrucciones sintetizadas y diversas para inculcar un razonamiento multiperspectiva, seguido de aprendizaje por refuerzo (RL) para optimizar la selección y composición de vías. Nuestros modelos resultantes, UI-Ins-7B y UI-Ins-32B, logran resultados de vanguardia en cinco benchmarks desafiantes de fundamentación y exhiben razonamiento emergente, componiendo y sintetizando selectivamente nuevas vías de instrucción en la inferencia. En particular, UI-Ins-32B alcanza la mejor precisión de fundamentación, con un 87.3% en UI-I2E-Bench, 57.0% en ScreenSpot-Pro y 84.9% en MMBench-GUI L2. Además, nuestro modelo demuestra un fuerte potencial agéntico, logrando una tasa de éxito del 74.1% en AndroidWorld usando UI-Ins-7B como ejecutor. Nuestro análisis en profundidad revela perspectivas adicionales, como cómo se puede formular el razonamiento para mejorar en lugar de obstaculizar el rendimiento de la fundamentación, y cómo nuestro método mitiga el colapso de políticas en el marco SFT+RL. Todo el código y los puntos de control de los modelos se publicarán en https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.