Aprendizado por Reforço em Tempo de Teste para Fundamentação de Interface Gráfica via Consistência de Região
Test-Time Reinforcement Learning for GUI Grounding via Region Consistency
August 7, 2025
Autores: Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen
cs.AI
Resumo
A fundamentação de Interface Gráfica do Usuário (GUI), a tarefa de mapear instruções em linguagem natural para coordenadas precisas na tela, é essencial para agentes autônomos de GUI. Embora os métodos existentes alcancem desempenho robusto por meio de treinamento supervisionado extensivo ou aprendizado por reforço com recompensas rotuladas, eles permanecem limitados pelo custo e disponibilidade de anotações em nível de pixel. Observamos que, quando os modelos geram múltiplas previsões para o mesmo elemento de GUI, os padrões de sobreposição espacial revelam sinais implícitos de confiança que podem orientar uma localização mais precisa. Aproveitando essa percepção, propomos o GUI-RC (Consistência de Região), um método de escalonamento em tempo de teste que constrói grades de votação espacial a partir de múltiplas previsões amostradas para identificar regiões de consenso onde os modelos apresentam maior concordância. Sem qualquer treinamento, o GUI-RC melhora a precisão em 2-3% em várias arquiteturas nos benchmarks do ScreenSpot. Introduzimos ainda o GUI-RCPO (Otimização de Política de Consistência de Região), que transforma esses padrões de consistência em recompensas para o aprendizado por reforço em tempo de teste. Ao calcular o quão bem cada previsão se alinha com o consenso coletivo, o GUI-RCPO permite que os modelos refinem iterativamente suas saídas em dados não rotulados durante a inferência. Experimentos extensivos demonstram a generalidade da nossa abordagem: o GUI-RC eleva o Qwen2.5-VL-3B-Instruct de 80,11% para 83,57% no ScreenSpot-v2, enquanto o GUI-RCPO o melhora ainda mais para 85,14% por meio de otimização auto-supervisionada. Nossa abordagem revela o potencial inexplorado do escalonamento em tempo de teste e do aprendizado por reforço em tempo de teste para a fundamentação de GUI, oferecendo um caminho promissor para agentes de GUI mais robustos e eficientes em termos de dados.
English
Graphical User Interface (GUI) grounding, the task of mapping natural
language instructions to precise screen coordinates, is fundamental to
autonomous GUI agents. While existing methods achieve strong performance
through extensive supervised training or reinforcement learning with labeled
rewards, they remain constrained by the cost and availability of pixel-level
annotations. We observe that when models generate multiple predictions for the
same GUI element, the spatial overlap patterns reveal implicit confidence
signals that can guide more accurate localization. Leveraging this insight, we
propose GUI-RC (Region Consistency), a test-time scaling method that constructs
spatial voting grids from multiple sampled predictions to identify consensus
regions where models show highest agreement. Without any training, GUI-RC
improves accuracy by 2-3% across various architectures on ScreenSpot
benchmarks. We further introduce GUI-RCPO (Region Consistency Policy
Optimization), which transforms these consistency patterns into rewards for
test-time reinforcement learning. By computing how well each prediction aligns
with the collective consensus, GUI-RCPO enables models to iteratively refine
their outputs on unlabeled data during inference. Extensive experiments
demonstrate the generality of our approach: GUI-RC boosts
Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO
further improves it to 85.14% through self-supervised optimization. Our
approach reveals the untapped potential of test-time scaling and test-time
reinforcement learning for GUI grounding, offering a promising path toward more
robust and data-efficient GUI agents.