UI-Ins: Verbetering van GUI-verankering met multi-perspectief instructie-als-redeneren
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
Auteurs: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
Samenvatting
GUI-gronding, het koppelen van natuurlijke-taalinstructies aan actiebare UI-elementen, is een kerncapaciteit van GUI-agenten. Eerdere werken behandelen instructies grotendeels als een statische proxy voor gebruikersintentie, waarbij de impact van instructiediversiteit en -kwaliteit op de grondingprestaties over het hoofd wordt gezien. Door een zorgvuldig onderzoek van bestaande grondingdatasets ontdekken we een foutpercentage van 23,3% in hun instructies en tonen we aan dat exploitatie van instructiediversiteit tijdens inferentie tot een aanzienlijke relatieve prestatieverbetering van 76% leidt. In dit artikel introduceren we het Instruction-as-Reasoning-paradigma, waarbij we instructies behandelen als dynamische analytische paden die verschillende perspectieven bieden en het model in staat stellen het meest effectieve pad te selecteren tijdens het redeneren. Om dit te bereiken, stellen we een tweefasen-trainingsraamwerk voor: supervised fine-tuning (SFT) op gesynthetiseerde, diverse instructies om meerperspectiefredenering in te prenten, gevolgd door reinforcement learning (RL) om padselectie en -compositie te optimaliseren. Onze resulterende modellen, UI-Ins-7B en UI-Ins-32B, behalen state-of-the-art-resultaten op vijf uitdagende grondingbenchmarks en vertonen emergent redeneren, waarbij ze selectief nieuwe instructiepaden samenstellen en synthetiseren tijdens inferentie. In het bijzonder behaalt UI-Ins-32B de beste grondingsnauwkeurigheid met scores van 87,3% op UI-I2E-Bench, 57,0% op ScreenSpot-Pro en 84,9% op MMBench-GUI L2. Bovendien toont ons model sterk agentisch potentieel, met een slagingspercentage van 74,1% op AndroidWorld bij gebruik van UI-Ins-7B als executor. Onze diepgaande analyse onthult aanvullende inzichten, zoals hoe redeneren kan worden geformuleerd om grondingprestaties te verbeteren in plaats van te hinderen, en hoe onze methode policy collapse in het SFT+RL-raamwerk beperkt. Alle code en modelcheckpoints worden openbaar vrijgegeven op https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.