UI-Ins : Améliorer la Fondation des Interfaces Graphiques par un Raisonnement Basé sur des Instructions Multi-Perspectives
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
papers.authors: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
papers.abstract
L'ancrage d'interface graphique (GUI), qui consiste à mapper des instructions en langage naturel vers des éléments d'interface utilisateur actionnables, est une capacité fondamentale des agents d'interface. Les travaux antérieurs traitent largement les instructions comme un proxy statique de l'intention de l'utilisateur, négligeant l'impact de la diversité et de la qualité des instructions sur les performances d'ancrage. Par une investigation minutieuse des jeux de données d'ancrage existants, nous constatons un taux d'erreur de 23,3 % dans leurs instructions et montrons qu'exploiter la diversité des instructions à l'inférence permet d'atteindre une amélioration relative substantielle des performances allant jusqu'à 76 %. Dans cet article, nous introduisons le paradigme Instruction-comme-Raisonnement, traitant les instructions comme des chemins analytiques dynamiques offrant des perspectives distinctes et permettant au modèle de sélectionner le chemin le plus efficace pendant le raisonnement. Pour y parvenir, nous proposons un cadre d'entraînement en deux étapes : un réglage fin supervisé (SFT) sur des instructions synthétisées et diversifiées pour inculquer un raisonnement multi-perspectives, suivi d'un apprentissage par renforcement (RL) pour optimiser la sélection et la composition des chemins. Nos modèles résultants, UI-Ins-7B et UI-Ins-32B, obtiennent des résultats state-of-the-art sur cinq benchmarks d'ancrage difficiles et présentent un raisonnement émergent, composant et synthétisant sélectivement de nouveaux chemins d'instruction à l'inférence. En particulier, UI-Ins-32B atteint la meilleure précision d'ancrage, avec un score de 87,3 % sur UI-I2E-Bench, 57,0 % sur ScreenSpot-Pro et 84,9 % sur MMBench-GUI L2. De plus, notre modèle démontre un fort potentiel agentique, atteignant un taux de réussite de 74,1 % sur AndroidWorld en utilisant UI-Ins-7B comme exécuteur. Notre analyse approfondie révèle des insights supplémentaires, tels que la manière dont le raisonnement peut être formulé pour améliorer plutôt qu'entraver les performances d'ancrage, et comment notre méthode atténue l'effondrement de la politique dans le cadre SFT+RL. Tout le code et les points de contrôle des modèles seront publiquement disponibles sur https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.