Aprendizaje por Refuerzo en Tiempo de Prueba para la Fundamentación de Interfaces Gráficas mediante Consistencia de Regiones

Resumen

La fundamentación de Interfaces Gráficas de Usuario (GUI, por sus siglas en inglés), la tarea de mapear instrucciones en lenguaje natural a coordenadas precisas en pantalla, es fundamental para los agentes autónomos de GUI. Si bien los métodos existentes logran un rendimiento sólido mediante entrenamiento supervisado extensivo o aprendizaje por refuerzo con recompensas etiquetadas, siguen limitados por el costo y la disponibilidad de anotaciones a nivel de píxeles. Observamos que, cuando los modelos generan múltiples predicciones para el mismo elemento de GUI, los patrones de superposición espacial revelan señales de confianza implícitas que pueden guiar una localización más precisa. Aprovechando esta idea, proponemos GUI-RC (Consistencia de Región), un método de escalado en tiempo de prueba que construye cuadrículas de votación espacial a partir de múltiples predicciones muestreadas para identificar regiones de consenso donde los modelos muestran el mayor acuerdo. Sin necesidad de entrenamiento, GUI-RC mejora la precisión en un 2-3% en varias arquitecturas en los benchmarks de ScreenSpot. Además, introducimos GUI-RCPO (Optimización de Política de Consistencia de Región), que transforma estos patrones de consistencia en recompensas para el aprendizaje por refuerzo en tiempo de prueba. Al calcular qué tan bien cada predicción se alinea con el consenso colectivo, GUI-RCPO permite que los modelos refinen iterativamente sus salidas en datos no etiquetados durante la inferencia. Experimentos extensivos demuestran la generalidad de nuestro enfoque: GUI-RC aumenta el rendimiento de Qwen2.5-VL-3B-Instruct de 80.11% a 83.57% en ScreenSpot-v2, mientras que GUI-RCPO lo mejora aún más a 85.14% mediante optimización auto-supervisada. Nuestro enfoque revela el potencial no explotado del escalado en tiempo de prueba y del aprendizaje por refuerzo en tiempo de prueba para la fundamentación de GUI, ofreciendo un camino prometedor hacia agentes de GUI más robustos y eficientes en términos de datos.

English

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal implicit confidence signals that can guide more accurate localization. Leveraging this insight, we propose GUI-RC (Region Consistency), a test-time scaling method that constructs spatial voting grids from multiple sampled predictions to identify consensus regions where models show highest agreement. Without any training, GUI-RC improves accuracy by 2-3% across various architectures on ScreenSpot benchmarks. We further introduce GUI-RCPO (Region Consistency Policy Optimization), which transforms these consistency patterns into rewards for test-time reinforcement learning. By computing how well each prediction aligns with the collective consensus, GUI-RCPO enables models to iteratively refine their outputs on unlabeled data during inference. Extensive experiments demonstrate the generality of our approach: GUI-RC boosts Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO further improves it to 85.14% through self-supervised optimization. Our approach reveals the untapped potential of test-time scaling and test-time reinforcement learning for GUI grounding, offering a promising path toward more robust and data-efficient GUI agents.

Aprendizaje por Refuerzo en Tiempo de Prueba para la Fundamentación de Interfaces Gráficas mediante Consistencia de Regiones

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

Resumen

Support