GUI-Actor: Koordinatenfreie visuelle Verankerung für GUI-Agenten

papers.abstract

Eine der Hauptherausforderungen beim Aufbau von GUI-Agenten, die auf visuellen Sprachmodellen (VLM) basieren, ist die visuelle Verankerung, d.h. die Lokalisierung des geeigneten Bildschirmbereichs für die Ausführung von Aktionen basierend auf dem visuellen Inhalt und den textuellen Plänen. Die meisten bestehenden Arbeiten formulieren dies als eine textbasierte Koordinatengenerierungsaufgabe. Diese Ansätze leiden jedoch unter mehreren Einschränkungen: schwache räumlich-semantische Ausrichtung, Unfähigkeit, mehrdeutige Überwachungsziele zu handhaben, und eine Diskrepanz zwischen der dichten Natur von Bildschirmkoordinaten und der groben, patch-basierten Granularität der visuellen Merkmale, die von Modellen wie Vision Transformern extrahiert werden. In diesem Artikel schlagen wir GUI-Actor vor, eine VLM-basierte Methode für die koordinatenfreie GUI-Verankerung. Kernstück von GUI-Actor ist ein aufmerksamkeitsbasiertes Aktionsmodul, das lernt, einen dedizierten <ACTOR>-Token mit allen relevanten visuellen Patch-Tokens auszurichten, wodurch das Modell in der Lage ist, einen oder mehrere Aktionsbereiche in einem einzigen Vorwärtsdurchlauf vorzuschlagen. In diesem Zusammenhang entwerfen wir weiterhin einen Verankerungsprüfer, um den plausibelsten Aktionsbereich aus den vorgeschlagenen Kandidaten für die Aktionsausführung zu bewerten und auszuwählen. Umfangreiche Experimente zeigen, dass GUI-Actor bisherige state-of-the-art Methoden auf mehreren GUI-Aktionsverankerungs-Benchmarks übertrifft, mit verbesserter Generalisierung auf ungesehene Bildschirmauflösungen und -layouts. Bemerkenswerterweise übertrifft GUI-Actor-7B sogar UI-TARS-72B (38.1) auf ScreenSpot-Pro, mit Werten von 40.7 bei Verwendung von Qwen2-VL und 44.6 mit Qwen2.5-VL als Backbone. Darüber hinaus stellen wir fest, dass durch die Einbindung des Prüfers das Feinabstimmen nur des neu eingeführten Aktionsmoduls (~100M Parameter für das 7B-Modell) bei gleichzeitigem Einfrieren des VLM-Backbones ausreicht, um eine Leistung zu erzielen, die mit früheren state-of-the-art Modellen vergleichbar ist. Dies unterstreicht, dass GUI-Actor dem zugrunde liegenden VLM effektive Verankerungsfähigkeiten verleihen kann, ohne dessen allgemeine Stärken zu beeinträchtigen.

English

One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.

GUI-Actor: Koordinatenfreie visuelle Verankerung für GUI-Agenten

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

papers.abstract

Support