UI-Ins: Migliorare il Grounding delle GUI con l'Istruzione come Ragionamento da Prospettive Multiple
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
Autori: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
Abstract
La GUI grounding, che mappa le istruzioni in linguaggio naturale a elementi UI azionabili, è una capacità fondamentale degli agenti GUI. I lavori precedenti trattano largamente le istruzioni come un proxy statico per l'intento dell'utente, trascurando l'impatto della diversità e qualità delle istruzioni sulle prestazioni del grounding. Attraverso un'attenta analisi dei dataset di grounding esistenti, abbiamo riscontrato un tasso di difetti del 23,3% nelle loro istruzioni e dimostriamo che lo sfruttamento della diversità delle istruzioni in fase di inferenza produce un miglioramento delle prestazioni relativo fino a un sostanziale 76%. In questo articolo, introduciamo il paradigma Instruction-as-Reasoning, trattando le istruzioni come percorsi analitici dinamici che offrono prospettive distinte e consentendo al modello di selezionare il percorso più efficace durante il ragionamento. Per raggiungere questo obiettivo, proponiamo un framework di addestramento a due stadi: fine-tuning supervisionato (SFT) su istruzioni sintetizzate e diversificate per instillare un ragionamento multi-prospettico, seguito da apprendimento per rinforzo (RL) per ottimizzare la selezione e composizione dei percorsi. I nostri modelli risultanti, UI-Ins-7B e UI-Ins-32B, raggiungono risultati state-of-the-art su cinque benchmark di grounding impegnativi ed esibiscono un ragionamento emergente, componendo e sintetizzando selettivamente nuovi percorsi di istruzioni durante l'inferenza. In particolare, UI-Ins-32B raggiunge la migliore accuratezza di grounding, ottenendo l'87,3% su UI-I2E-Bench, il 57,0% su ScreenSpot-Pro e l'84,9% su MMBench-GUI L2. Inoltre, il nostro modello dimostra un forte potenziale agentico, raggiungendo un tasso di successo del 74,1% su AndroidWorld utilizzando UI-Ins-7B come esecutore. La nostra analisi approfondita rivale ulteriori intuizioni, come come il ragionamento possa essere formulato per migliorare piuttosto che ostacolare le prestazioni di grounding, e come il nostro metodo mitighi il collasso della politica nel framework SFT+RL. Tutto il codice e i checkpoint del modello saranno rilasciati pubblicamente su https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.