Test-Time Reinforcement Learning für GUI-Grounding durch Regionenkonsistenz
Test-Time Reinforcement Learning for GUI Grounding via Region Consistency
August 7, 2025
papers.authors: Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen
cs.AI
papers.abstract
Die Verankerung von grafischen Benutzeroberflächen (GUI), also die Aufgabe, natürliche Sprachbefehle auf präzise Bildschirmkoordinaten abzubilden, ist grundlegend für autonome GUI-Agenten. Während bestehende Methoden durch umfangreiche überwachte Trainings oder Verstärkungslernen mit beschrifteten Belohnungen starke Leistungen erzielen, bleiben sie durch die Kosten und Verfügbarkeit von Pixel-annotationen eingeschränkt. Wir beobachten, dass wenn Modelle mehrere Vorhersagen für dasselbe GUI-Element generieren, die räumlichen Überlappungsmuster implizite Konfidenzsignale offenbaren, die eine genauere Lokalisierung leiten können. Basierend auf dieser Erkenntnis schlagen wir GUI-RC (Region Consistency) vor, eine Methode zur Skalierung zur Testzeit, die räumliche Abstimmungsgitter aus mehreren gesampelten Vorhersagen konstruiert, um Konsensregionen zu identifizieren, in denen Modelle die höchste Übereinstimmung zeigen. Ohne jegliches Training verbessert GUI-RC die Genauigkeit um 2-3% über verschiedene Architekturen hinweg auf ScreenSpot-Benchmarks. Wir führen weiterhin GUI-RCPO (Region Consistency Policy Optimization) ein, das diese Konsistenzmuster in Belohnungen für Verstärkungslernen zur Testzeit umwandelt. Indem berechnet wird, wie gut jede Vorhersage mit dem kollektiven Konsens übereinstimmt, ermöglicht GUI-RCPO Modellen, ihre Ausgaben auf unmarkierten Daten während der Inferenz iterativ zu verfeinern. Umfangreiche Experimente demonstrieren die Allgemeingültigkeit unseres Ansatzes: GUI-RC steigert Qwen2.5-VL-3B-Instruct von 80,11% auf 83,57% auf ScreenSpot-v2, während GUI-RCPO es durch selbstüberwachte Optimierung weiter auf 85,14% verbessert. Unser Ansatz offenbart das ungenutzte Potenzial von Skalierung zur Testzeit und Verstärkungslernen zur Testzeit für die GUI-Verankerung und bietet einen vielversprechenden Weg hin zu robusteren und dateneffizienteren GUI-Agenten.
English
Graphical User Interface (GUI) grounding, the task of mapping natural
language instructions to precise screen coordinates, is fundamental to
autonomous GUI agents. While existing methods achieve strong performance
through extensive supervised training or reinforcement learning with labeled
rewards, they remain constrained by the cost and availability of pixel-level
annotations. We observe that when models generate multiple predictions for the
same GUI element, the spatial overlap patterns reveal implicit confidence
signals that can guide more accurate localization. Leveraging this insight, we
propose GUI-RC (Region Consistency), a test-time scaling method that constructs
spatial voting grids from multiple sampled predictions to identify consensus
regions where models show highest agreement. Without any training, GUI-RC
improves accuracy by 2-3% across various architectures on ScreenSpot
benchmarks. We further introduce GUI-RCPO (Region Consistency Policy
Optimization), which transforms these consistency patterns into rewards for
test-time reinforcement learning. By computing how well each prediction aligns
with the collective consensus, GUI-RCPO enables models to iteratively refine
their outputs on unlabeled data during inference. Extensive experiments
demonstrate the generality of our approach: GUI-RC boosts
Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO
further improves it to 85.14% through self-supervised optimization. Our
approach reveals the untapped potential of test-time scaling and test-time
reinforcement learning for GUI grounding, offering a promising path toward more
robust and data-efficient GUI agents.