Apprentissage par renforcement au moment du test pour l'ancrage d'interface graphique via la cohérence régionale

papers.abstract

L'ancrage d'interface graphique (GUI), qui consiste à mapper des instructions en langage naturel vers des coordonnées précises à l'écran, est fondamental pour les agents autonomes d'interface graphique. Bien que les méthodes existantes atteignent des performances solides grâce à un apprentissage supervisé intensif ou à un apprentissage par renforcement avec des récompenses étiquetées, elles restent limitées par le coût et la disponibilité des annotations au niveau des pixels. Nous observons que lorsque les modèles génèrent plusieurs prédictions pour le même élément d'interface graphique, les motifs de chevauchement spatial révèlent des signaux de confiance implicites qui peuvent guider une localisation plus précise. En exploitant cette intuition, nous proposons GUI-RC (Région de Cohérence), une méthode de mise à l'échelle au moment du test qui construit des grilles de vote spatial à partir de plusieurs prédictions échantillonnées pour identifier les régions de consensus où les modèles montrent le plus grand accord. Sans aucun entraînement supplémentaire, GUI-RC améliore la précision de 2 à 3 % sur diverses architectures dans les benchmarks ScreenSpot. Nous introduisons également GUI-RCPO (Optimisation de Politique de Cohérence Régionale), qui transforme ces motifs de cohérence en récompenses pour un apprentissage par renforcement au moment du test. En calculant à quel point chaque prédiction s'aligne avec le consensus collectif, GUI-RCPO permet aux modèles d'affiner itérativement leurs sorties sur des données non étiquetées pendant l'inférence. Des expériences approfondies démontrent la généralité de notre approche : GUI-RC améliore Qwen2.5-VL-3B-Instruct de 80,11 % à 83,57 % sur ScreenSpot-v2, tandis que GUI-RCPO l'améliore encore à 85,14 % grâce à une optimisation auto-supervisée. Notre approche révèle le potentiel inexploité de la mise à l'échelle au moment du test et de l'apprentissage par renforcement au moment du test pour l'ancrage d'interface graphique, offrant une voie prometteuse vers des agents d'interface graphique plus robustes et plus efficaces en termes de données.

English

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal implicit confidence signals that can guide more accurate localization. Leveraging this insight, we propose GUI-RC (Region Consistency), a test-time scaling method that constructs spatial voting grids from multiple sampled predictions to identify consensus regions where models show highest agreement. Without any training, GUI-RC improves accuracy by 2-3% across various architectures on ScreenSpot benchmarks. We further introduce GUI-RCPO (Region Consistency Policy Optimization), which transforms these consistency patterns into rewards for test-time reinforcement learning. By computing how well each prediction aligns with the collective consensus, GUI-RCPO enables models to iteratively refine their outputs on unlabeled data during inference. Extensive experiments demonstrate the generality of our approach: GUI-RC boosts Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO further improves it to 85.14% through self-supervised optimization. Our approach reveals the untapped potential of test-time scaling and test-time reinforcement learning for GUI grounding, offering a promising path toward more robust and data-efficient GUI agents.

Apprentissage par renforcement au moment du test pour l'ancrage d'interface graphique via la cohérence régionale

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

papers.abstract

Support