Test-Time Reinforcement Learning für GUI-Grounding durch Regionenkonsistenz

papers.abstract

Die Verankerung von grafischen Benutzeroberflächen (GUI), also die Aufgabe, natürliche Sprachbefehle auf präzise Bildschirmkoordinaten abzubilden, ist grundlegend für autonome GUI-Agenten. Während bestehende Methoden durch umfangreiche überwachte Trainings oder Verstärkungslernen mit beschrifteten Belohnungen starke Leistungen erzielen, bleiben sie durch die Kosten und Verfügbarkeit von Pixel-annotationen eingeschränkt. Wir beobachten, dass wenn Modelle mehrere Vorhersagen für dasselbe GUI-Element generieren, die räumlichen Überlappungsmuster implizite Konfidenzsignale offenbaren, die eine genauere Lokalisierung leiten können. Basierend auf dieser Erkenntnis schlagen wir GUI-RC (Region Consistency) vor, eine Methode zur Skalierung zur Testzeit, die räumliche Abstimmungsgitter aus mehreren gesampelten Vorhersagen konstruiert, um Konsensregionen zu identifizieren, in denen Modelle die höchste Übereinstimmung zeigen. Ohne jegliches Training verbessert GUI-RC die Genauigkeit um 2-3% über verschiedene Architekturen hinweg auf ScreenSpot-Benchmarks. Wir führen weiterhin GUI-RCPO (Region Consistency Policy Optimization) ein, das diese Konsistenzmuster in Belohnungen für Verstärkungslernen zur Testzeit umwandelt. Indem berechnet wird, wie gut jede Vorhersage mit dem kollektiven Konsens übereinstimmt, ermöglicht GUI-RCPO Modellen, ihre Ausgaben auf unmarkierten Daten während der Inferenz iterativ zu verfeinern. Umfangreiche Experimente demonstrieren die Allgemeingültigkeit unseres Ansatzes: GUI-RC steigert Qwen2.5-VL-3B-Instruct von 80,11% auf 83,57% auf ScreenSpot-v2, während GUI-RCPO es durch selbstüberwachte Optimierung weiter auf 85,14% verbessert. Unser Ansatz offenbart das ungenutzte Potenzial von Skalierung zur Testzeit und Verstärkungslernen zur Testzeit für die GUI-Verankerung und bietet einen vielversprechenden Weg hin zu robusteren und dateneffizienteren GUI-Agenten.

English

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal implicit confidence signals that can guide more accurate localization. Leveraging this insight, we propose GUI-RC (Region Consistency), a test-time scaling method that constructs spatial voting grids from multiple sampled predictions to identify consensus regions where models show highest agreement. Without any training, GUI-RC improves accuracy by 2-3% across various architectures on ScreenSpot benchmarks. We further introduce GUI-RCPO (Region Consistency Policy Optimization), which transforms these consistency patterns into rewards for test-time reinforcement learning. By computing how well each prediction aligns with the collective consensus, GUI-RCPO enables models to iteratively refine their outputs on unlabeled data during inference. Extensive experiments demonstrate the generality of our approach: GUI-RC boosts Qwen2.5-VL-3B-Instruct from 80.11% to 83.57% on ScreenSpot-v2, while GUI-RCPO further improves it to 85.14% through self-supervised optimization. Our approach reveals the untapped potential of test-time scaling and test-time reinforcement learning for GUI grounding, offering a promising path toward more robust and data-efficient GUI agents.

Test-Time Reinforcement Learning für GUI-Grounding durch Regionenkonsistenz

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

papers.abstract

Support