UI-Ins : Améliorer la Fondation des Interfaces Graphiques par un Raisonnement Basé sur des Instructions Multi-Perspectives

papers.abstract

L'ancrage d'interface graphique (GUI), qui consiste à mapper des instructions en langage naturel vers des éléments d'interface utilisateur actionnables, est une capacité fondamentale des agents d'interface. Les travaux antérieurs traitent largement les instructions comme un proxy statique de l'intention de l'utilisateur, négligeant l'impact de la diversité et de la qualité des instructions sur les performances d'ancrage. Par une investigation minutieuse des jeux de données d'ancrage existants, nous constatons un taux d'erreur de 23,3 % dans leurs instructions et montrons qu'exploiter la diversité des instructions à l'inférence permet d'atteindre une amélioration relative substantielle des performances allant jusqu'à 76 %. Dans cet article, nous introduisons le paradigme Instruction-comme-Raisonnement, traitant les instructions comme des chemins analytiques dynamiques offrant des perspectives distinctes et permettant au modèle de sélectionner le chemin le plus efficace pendant le raisonnement. Pour y parvenir, nous proposons un cadre d'entraînement en deux étapes : un réglage fin supervisé (SFT) sur des instructions synthétisées et diversifiées pour inculquer un raisonnement multi-perspectives, suivi d'un apprentissage par renforcement (RL) pour optimiser la sélection et la composition des chemins. Nos modèles résultants, UI-Ins-7B et UI-Ins-32B, obtiennent des résultats state-of-the-art sur cinq benchmarks d'ancrage difficiles et présentent un raisonnement émergent, composant et synthétisant sélectivement de nouveaux chemins d'instruction à l'inférence. En particulier, UI-Ins-32B atteint la meilleure précision d'ancrage, avec un score de 87,3 % sur UI-I2E-Bench, 57,0 % sur ScreenSpot-Pro et 84,9 % sur MMBench-GUI L2. De plus, notre modèle démontre un fort potentiel agentique, atteignant un taux de réussite de 74,1 % sur AndroidWorld en utilisant UI-Ins-7B comme exécuteur. Notre analyse approfondie révèle des insights supplémentaires, tels que la manière dont le raisonnement peut être formulé pour améliorer plutôt qu'entraver les performances d'ancrage, et comment notre méthode atténue l'effondrement de la politique dans le cadre SFT+RL. Tout le code et les points de contrôle des modèles seront publiquement disponibles sur https://github.com/alibaba/UI-Ins.

English

GUI grounding, which maps natural-language instructions to actionable UI elements, is a core capability of GUI agents. Prior works largely treats instructions as a static proxy for user intent, overlooking the impact of instruction diversity and quality on grounding performance. Through a careful investigation of existing grounding datasets, we find a 23.3% flaw rate in their instructions and show that inference-time exploitation of instruction diversity yields up to a substantial 76% relative performance improvement. In this paper, we introduce the Instruction-as-Reasoning paradigm, treating instructions as dynamic analytical pathways that offer distinct perspectives and enabling the model to select the most effective pathway during reasoning. To achieve this, we propose a two-stage training framework: supervised fine-tuning (SFT) on synthesized, diverse instructions to instill multi-perspective reasoning, followed by reinforcement learning (RL) to optimize pathway selection and composition. Our resulting models, UI-Ins-7B and UI-Ins-32B, achieve state-of-the-art results on five challenging grounding benchmarks and exhibit emergent reasoning, selectively composing and synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model demonstrates strong agentic potential, achieving a 74.1% success rate on AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals additional insights such as how reasoning can be formulated to enhance rather than hinder grounding performance, and how our method mitigates policy collapse in the SFT+RL framework. All code and model checkpoints will be publicly released in https://github.com/alibaba/UI-Ins.

UI-Ins : Améliorer la Fondation des Interfaces Graphiques par un Raisonnement Basé sur des Instructions Multi-Perspectives

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

papers.abstract

Support