Aprendizado por Reforço em Tempo de Teste para Fundamentação de Interface Gráfica via Consistência de Região

Resumo

A fundamentação de Interface Gráfica do Usuário (GUI), a tarefa de mapear instruções em linguagem natural para coordenadas precisas na tela, é essencial para agentes autônomos de GUI. Embora os métodos existentes alcancem desempenho robusto por meio de treinamento supervisionado extensivo ou aprendizado por reforço com recompensas rotuladas, eles permanecem limitados pelo custo e disponibilidade de anotações em nível de pixel. Observamos que, quando os modelos geram múltiplas previsões para o mesmo elemento de GUI, os padrões de sobreposição espacial revelam sinais implícitos de confiança que podem orientar uma localização mais precisa. Aproveitando essa percepção, propomos o GUI-RC (Consistência de Região), um método de escalonamento em tempo de teste que constrói grades de votação espacial a partir de múltiplas previsões amostradas para identificar regiões de consenso onde os modelos apresentam maior concordância. Sem qualquer treinamento, o GUI-RC melhora a precisão em 2-3% em várias arquiteturas nos benchmarks do ScreenSpot. Introduzimos ainda o GUI-RCPO (Otimização de Política de Consistência de Região), que transforma esses padrões de consistência em recompensas para o aprendizado por reforço em tempo de teste. Ao calcular o quão bem cada previsão se alinha com o consenso coletivo, o GUI-RCPO permite que os modelos refinem iterativamente suas saídas em dados não rotulados durante a inferência. Experimentos extensivos demonstram a generalidade da nossa abordagem: o GUI-RC eleva o Qwen2.5-VL-3B-Instruct de 80,11% para 83,57% no ScreenSpot-v2, enquanto o GUI-RCPO o melhora ainda mais para 85,14% por meio de otimização auto-supervisionada. Nossa abordagem revela o potencial inexplorado do escalonamento em tempo de teste e do aprendizado por reforço em tempo de teste para a fundamentação de GUI, oferecendo um caminho promissor para agentes de GUI mais robustos e eficientes em termos de dados.

English

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal implicit confidence signals that can guide more accurate localization. Leveraging this insight, we propose GUI-RC (Region Consistency), a test-time scaling method that constructs spatial voting grids from multiple sampled predictions to identify consensus regions where models show highest agreement. Without any training, GUI-RC improves accuracy by 2-3% across various architectures on ScreenSpot benchmarks. We further introduce GUI-RCPO (Region Consistency Policy Optimization), which transforms these consistency patterns into rewards for test-time reinforcement learning. By computing how well each prediction aligns with the collective consensus, GUI-RCPO enables models to iteratively refine their outputs on unlabeled data during inference. Extensive experiments demonstrate the generality of our approach: GUI-RC boosts Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO further improves it to 85.14% through self-supervised optimization. Our approach reveals the untapped potential of test-time scaling and test-time reinforcement learning for GUI grounding, offering a promising path toward more robust and data-efficient GUI agents.

Aprendizado por Reforço em Tempo de Teste para Fundamentação de Interface Gráfica via Consistência de Região

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

Resumo

Support