UI-Ins: Verbesserung der GUI-Verankerung durch Multi-Perspektivische Instruktion-als-Argumentation
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
papers.authors: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
papers.abstract
GUI-Grounding, das natürliche Sprachbefehle auf aktionsfähige UI-Elemente abbildet, ist eine Kernfähigkeit von GUI-Agenten. Bisherige Arbeiten behandeln Befehle weitgehend als statischen Stellvertreter für Benutzerabsichten und übersehen dabei die Auswirkungen von Befehlsvielfalt und -qualität auf die Grounding-Leistung. Durch eine sorgfältige Untersuchung bestehender Grounding-Datensätze finden wir eine Fehlerrate von 23,3 % in deren Befehlen und zeigen, dass die Ausnutzung von Befehlsvielfalt zur Inferenzzeit eine relative Leistungssteigerung von bis zu 76 % erzielt. In diesem Artikel führen wir das Instruction-as-Reasoning-Paradigma ein, das Befehle als dynamische Analysepfade behandelt, die unterschiedliche Perspektiven bieten und es dem Modell ermöglichen, während des Schlussfolgerns den effektivsten Pfad auszuwählen.
Um dies zu erreichen, schlagen wir einen zweistufigen Trainingsrahmen vor: überwachtes Fein-Tuning (SFT) an synthetisierten, vielfältigen Befehlen, um multiperspektivisches Reasoning zu vermitteln, gefolgt von bestärkendem Lernen (RL), um die Pfadauswahl und -zusammensetzung zu optimieren. Unsere resultierenden Modelle, UI-Ins-7B und UI-Ins-32B, erzielen state-of-the-art Ergebnisse auf fünf anspruchsvollen Grounding-Benchmarks und zeigen emergentes Reasoning, das bei der Inferenz selektiv neue Befehlspfade komponiert und synthetisiert. Insbesondere erreicht UI-Ins-32B die beste Grounding-Genauigkeit mit 87,3 % auf UI-I2E-Bench, 57,0 % auf ScreenSpot-Pro und 84,9 % auf MMBench-GUI L2. Darüber hinaus zeigt unser Modell starkes agentisches Potenzial und erreicht eine Erfolgsquote von 74,1 % auf AndroidWorld unter Verwendung von UI-Ins-7B als Executor.
Unsere tiefgehende Analyse liefert weitere Erkenntnisse, wie etwa die Formulierung von Reasoning zur Verbesserung – nicht Beeinträchtigung – der Grounding-Leistung und wie unsere Methode Policy Collapse im SFT+RL-Framework abmildert. Alle Code- und Modell-Checkpoints werden unter https://github.com/alibaba/UI-Ins öffentlich freigegeben.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.