UI-Ins: Migliorare il Grounding delle GUI con l'Istruzione come Ragionamento da Prospettive Multiple

Abstract

La GUI grounding, che mappa le istruzioni in linguaggio naturale a elementi UI azionabili, è una capacità fondamentale degli agenti GUI. I lavori precedenti trattano largamente le istruzioni come un proxy statico per l'intento dell'utente, trascurando l'impatto della diversità e qualità delle istruzioni sulle prestazioni del grounding. Attraverso un'attenta analisi dei dataset di grounding esistenti, abbiamo riscontrato un tasso di difetti del 23,3% nelle loro istruzioni e dimostriamo che lo sfruttamento della diversità delle istruzioni in fase di inferenza produce un miglioramento delle prestazioni relativo fino a un sostanziale 76%. In questo articolo, introduciamo il paradigma Instruction-as-Reasoning, trattando le istruzioni come percorsi analitici dinamici che offrono prospettive distinte e consentendo al modello di selezionare il percorso più efficace durante il ragionamento. Per raggiungere questo obiettivo, proponiamo un framework di addestramento a due stadi: fine-tuning supervisionato (SFT) su istruzioni sintetizzate e diversificate per instillare un ragionamento multi-prospettico, seguito da apprendimento per rinforzo (RL) per ottimizzare la selezione e composizione dei percorsi. I nostri modelli risultanti, UI-Ins-7B e UI-Ins-32B, raggiungono risultati state-of-the-art su cinque benchmark di grounding impegnativi ed esibiscono un ragionamento emergente, componendo e sintetizzando selettivamente nuovi percorsi di istruzioni durante l'inferenza. In particolare, UI-Ins-32B raggiunge la migliore accuratezza di grounding, ottenendo l'87,3% su UI-I2E-Bench, il 57,0% su ScreenSpot-Pro e l'84,9% su MMBench-GUI L2. Inoltre, il nostro modello dimostra un forte potenziale agentico, raggiungendo un tasso di successo del 74,1% su AndroidWorld utilizzando UI-Ins-7B come esecutore. La nostra analisi approfondita rivale ulteriori intuizioni, come come il ragionamento possa essere formulato per migliorare piuttosto che ostacolare le prestazioni di grounding, e come il nostro metodo mitighi il collasso della politica nel framework SFT+RL. Tutto il codice e i checkpoint del modello saranno rilasciati pubblicamente su https://github.com/alibaba/UI-Ins.

English

GUI grounding, which maps natural-language instructions to actionable UI elements, is a core capability of GUI agents. Prior works largely treats instructions as a static proxy for user intent, overlooking the impact of instruction diversity and quality on grounding performance. Through a careful investigation of existing grounding datasets, we find a 23.3% flaw rate in their instructions and show that inference-time exploitation of instruction diversity yields up to a substantial 76% relative performance improvement. In this paper, we introduce the Instruction-as-Reasoning paradigm, treating instructions as dynamic analytical pathways that offer distinct perspectives and enabling the model to select the most effective pathway during reasoning. To achieve this, we propose a two-stage training framework: supervised fine-tuning (SFT) on synthesized, diverse instructions to instill multi-perspective reasoning, followed by reinforcement learning (RL) to optimize pathway selection and composition. Our resulting models, UI-Ins-7B and UI-Ins-32B, achieve state-of-the-art results on five challenging grounding benchmarks and exhibit emergent reasoning, selectively composing and synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model demonstrates strong agentic potential, achieving a 74.1% success rate on AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals additional insights such as how reasoning can be formulated to enhance rather than hinder grounding performance, and how our method mitigates policy collapse in the SFT+RL framework. All code and model checkpoints will be publicly released in https://github.com/alibaba/UI-Ins.

UI-Ins: Migliorare il Grounding delle GUI con l'Istruzione come Ragionamento da Prospettive Multiple

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

Abstract

Support