UI-Ins: Aprimorando a Fundamentação em GUI com Instrução como Raciocínio em Múltiplas Perspectivas
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
October 23, 2025
Autores: Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven Hoi
cs.AI
Resumo
A fundamentação de GUI, que mapeia instruções em linguagem natural para elementos de UI acionáveis, é uma capacidade central dos agentes de GUI. Trabalhos anteriores tratam majoritariamente as instruções como um proxy estático da intenção do usuário, negligenciando o impacto da diversidade e qualidade das instruções no desempenho da fundamentação. Através de uma investigação criteriosa dos conjuntos de dados de fundamentação existentes, descobrimos uma taxa de defeito de 23,3% em suas instruções e demonstramos que a exploração da diversidade de instruções durante a inferência proporciona uma melhoria de desempenho relativa de até 76%. Neste artigo, introduzimos o paradigma Instrução-como-Raciocínio, tratando as instruções como vias analíticas dinâmicas que oferecem perspectivas distintas e permitindo que o modelo selecione a via mais eficaz durante o raciocínio. Para alcançar isto, propomos um framework de treinamento em dois estágios: ajuste fino supervisionado (SFT) em instruções sintetizadas e diversificadas para incutir raciocínio multiperspectiva, seguido por aprendizado por reforço (RL) para otimizar a seleção e composição de vias. Nossos modelos resultantes, UI-Ins-7B e UI-Ins-32B, alcançam resultados state-of-the-art em cinco benchmarks desafiadores de fundamentação e exibem raciocínio emergente, compondo e sintetizando seletivamente novas vias de instrução durante a inferência. Em particular, o UI-Ins-32B atinge a melhor precisão de fundamentação, marcando 87,3% no UI-I2E-Bench, 57,0% no ScreenSpot-Pro e 84,9% no MMBench-GUI L2. Adicionalmente, nosso modelo demonstra forte potencial agencial, alcançando uma taxa de sucesso de 74,1% no AndroidWorld usando o UI-Ins-7B como executor. Nossa análise aprofundada revela insights adicionais, como a forma como o raciocínio pode ser formulado para melhorar, e não prejudicar, o desempenho da fundamentação, e como nosso método mitiga o colapso de política no framework SFT+RL. Todo o código e checkpoints dos modelos serão publicamente liberados em https://github.com/alibaba/UI-Ins.
English
GUI grounding, which maps natural-language instructions to actionable UI
elements, is a core capability of GUI agents. Prior works largely treats
instructions as a static proxy for user intent, overlooking the impact of
instruction diversity and quality on grounding performance. Through a careful
investigation of existing grounding datasets, we find a 23.3% flaw rate in
their instructions and show that inference-time exploitation of instruction
diversity yields up to a substantial 76% relative performance improvement. In
this paper, we introduce the Instruction-as-Reasoning paradigm, treating
instructions as dynamic analytical pathways that offer distinct perspectives
and enabling the model to select the most effective pathway during reasoning.
To achieve this, we propose a two-stage training framework: supervised
fine-tuning (SFT) on synthesized, diverse instructions to instill
multi-perspective reasoning, followed by reinforcement learning (RL) to
optimize pathway selection and composition. Our resulting models, UI-Ins-7B and
UI-Ins-32B, achieve state-of-the-art results on five challenging grounding
benchmarks and exhibit emergent reasoning, selectively composing and
synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B
attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on
ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model
demonstrates strong agentic potential, achieving a 74.1% success rate on
AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals
additional insights such as how reasoning can be formulated to enhance rather
than hinder grounding performance, and how our method mitigates policy collapse
in the SFT+RL framework. All code and model checkpoints will be publicly
released in https://github.com/alibaba/UI-Ins.