UI-Ins: Aprimorando a Fundamentação em GUI com Instrução como Raciocínio em Múltiplas Perspectivas

Resumo

A fundamentação de GUI, que mapeia instruções em linguagem natural para elementos de UI acionáveis, é uma capacidade central dos agentes de GUI. Trabalhos anteriores tratam majoritariamente as instruções como um proxy estático da intenção do usuário, negligenciando o impacto da diversidade e qualidade das instruções no desempenho da fundamentação. Através de uma investigação criteriosa dos conjuntos de dados de fundamentação existentes, descobrimos uma taxa de defeito de 23,3% em suas instruções e demonstramos que a exploração da diversidade de instruções durante a inferência proporciona uma melhoria de desempenho relativa de até 76%. Neste artigo, introduzimos o paradigma Instrução-como-Raciocínio, tratando as instruções como vias analíticas dinâmicas que oferecem perspectivas distintas e permitindo que o modelo selecione a via mais eficaz durante o raciocínio. Para alcançar isto, propomos um framework de treinamento em dois estágios: ajuste fino supervisionado (SFT) em instruções sintetizadas e diversificadas para incutir raciocínio multiperspectiva, seguido por aprendizado por reforço (RL) para otimizar a seleção e composição de vias. Nossos modelos resultantes, UI-Ins-7B e UI-Ins-32B, alcançam resultados state-of-the-art em cinco benchmarks desafiadores de fundamentação e exibem raciocínio emergente, compondo e sintetizando seletivamente novas vias de instrução durante a inferência. Em particular, o UI-Ins-32B atinge a melhor precisão de fundamentação, marcando 87,3% no UI-I2E-Bench, 57,0% no ScreenSpot-Pro e 84,9% no MMBench-GUI L2. Adicionalmente, nosso modelo demonstra forte potencial agencial, alcançando uma taxa de sucesso de 74,1% no AndroidWorld usando o UI-Ins-7B como executor. Nossa análise aprofundada revela insights adicionais, como a forma como o raciocínio pode ser formulado para melhorar, e não prejudicar, o desempenho da fundamentação, e como nosso método mitiga o colapso de política no framework SFT+RL. Todo o código e checkpoints dos modelos serão publicamente liberados em https://github.com/alibaba/UI-Ins.

English

GUI grounding, which maps natural-language instructions to actionable UI elements, is a core capability of GUI agents. Prior works largely treats instructions as a static proxy for user intent, overlooking the impact of instruction diversity and quality on grounding performance. Through a careful investigation of existing grounding datasets, we find a 23.3% flaw rate in their instructions and show that inference-time exploitation of instruction diversity yields up to a substantial 76% relative performance improvement. In this paper, we introduce the Instruction-as-Reasoning paradigm, treating instructions as dynamic analytical pathways that offer distinct perspectives and enabling the model to select the most effective pathway during reasoning. To achieve this, we propose a two-stage training framework: supervised fine-tuning (SFT) on synthesized, diverse instructions to instill multi-perspective reasoning, followed by reinforcement learning (RL) to optimize pathway selection and composition. Our resulting models, UI-Ins-7B and UI-Ins-32B, achieve state-of-the-art results on five challenging grounding benchmarks and exhibit emergent reasoning, selectively composing and synthesizing novel instruction pathways at inference. In particular, UI-Ins-32B attains the best grounding accuracy, scoring 87.3% on UI-I2E-Bench, 57.0% on ScreenSpot-Pro, and 84.9% on MMBench-GUI L2. Furthermore, our model demonstrates strong agentic potential, achieving a 74.1% success rate on AndroidWorld using UI-Ins-7B as the executor. Our in-depth analysis reveals additional insights such as how reasoning can be formulated to enhance rather than hinder grounding performance, and how our method mitigates policy collapse in the SFT+RL framework. All code and model checkpoints will be publicly released in https://github.com/alibaba/UI-Ins.

UI-Ins: Aprimorando a Fundamentação em GUI com Instrução como Raciocínio em Múltiplas Perspectivas

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

Resumo

Support