Aprendizaje por Refuerzo en Tiempo de Prueba para la Fundamentación de Interfaces Gráficas mediante Consistencia de Regiones
Test-Time Reinforcement Learning for GUI Grounding via Region Consistency
August 7, 2025
Autores: Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen
cs.AI
Resumen
La fundamentación de Interfaces Gráficas de Usuario (GUI, por sus siglas en inglés), la tarea de mapear instrucciones en lenguaje natural a coordenadas precisas en pantalla, es fundamental para los agentes autónomos de GUI. Si bien los métodos existentes logran un rendimiento sólido mediante entrenamiento supervisado extensivo o aprendizaje por refuerzo con recompensas etiquetadas, siguen limitados por el costo y la disponibilidad de anotaciones a nivel de píxeles. Observamos que, cuando los modelos generan múltiples predicciones para el mismo elemento de GUI, los patrones de superposición espacial revelan señales de confianza implícitas que pueden guiar una localización más precisa. Aprovechando esta idea, proponemos GUI-RC (Consistencia de Región), un método de escalado en tiempo de prueba que construye cuadrículas de votación espacial a partir de múltiples predicciones muestreadas para identificar regiones de consenso donde los modelos muestran el mayor acuerdo. Sin necesidad de entrenamiento, GUI-RC mejora la precisión en un 2-3% en varias arquitecturas en los benchmarks de ScreenSpot. Además, introducimos GUI-RCPO (Optimización de Política de Consistencia de Región), que transforma estos patrones de consistencia en recompensas para el aprendizaje por refuerzo en tiempo de prueba. Al calcular qué tan bien cada predicción se alinea con el consenso colectivo, GUI-RCPO permite que los modelos refinen iterativamente sus salidas en datos no etiquetados durante la inferencia. Experimentos extensivos demuestran la generalidad de nuestro enfoque: GUI-RC aumenta el rendimiento de Qwen2.5-VL-3B-Instruct de 80.11% a 83.57% en ScreenSpot-v2, mientras que GUI-RCPO lo mejora aún más a 85.14% mediante optimización auto-supervisada. Nuestro enfoque revela el potencial no explotado del escalado en tiempo de prueba y del aprendizaje por refuerzo en tiempo de prueba para la fundamentación de GUI, ofreciendo un camino prometedor hacia agentes de GUI más robustos y eficientes en términos de datos.
English
Graphical User Interface (GUI) grounding, the task of mapping natural
language instructions to precise screen coordinates, is fundamental to
autonomous GUI agents. While existing methods achieve strong performance
through extensive supervised training or reinforcement learning with labeled
rewards, they remain constrained by the cost and availability of pixel-level
annotations. We observe that when models generate multiple predictions for the
same GUI element, the spatial overlap patterns reveal implicit confidence
signals that can guide more accurate localization. Leveraging this insight, we
propose GUI-RC (Region Consistency), a test-time scaling method that constructs
spatial voting grids from multiple sampled predictions to identify consensus
regions where models show highest agreement. Without any training, GUI-RC
improves accuracy by 2-3% across various architectures on ScreenSpot
benchmarks. We further introduce GUI-RCPO (Region Consistency Policy
Optimization), which transforms these consistency patterns into rewards for
test-time reinforcement learning. By computing how well each prediction aligns
with the collective consensus, GUI-RCPO enables models to iteratively refine
their outputs on unlabeled data during inference. Extensive experiments
demonstrate the generality of our approach: GUI-RC boosts
Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO
further improves it to 85.14% through self-supervised optimization. Our
approach reveals the untapped potential of test-time scaling and test-time
reinforcement learning for GUI grounding, offering a promising path toward more
robust and data-efficient GUI agents.