ShowUI: Ein Vision-Sprache-Aktion-Modell für GUI-Visuelle AgentenShowUI: One Vision-Language-Action Model for GUI Visual Agent
Der Aufbau von Graphical User Interface (GUI)-Assistenten birgt ein großes Potenzial zur Steigerung der Produktivität menschlicher Arbeitsabläufe. Während die meisten Agenten sprachbasiert sind und auf Closed-Source-APIs mit textreichen Metainformationen (z. B. HTML oder Zugänglichkeitsbaum) angewiesen sind, zeigen sie Einschränkungen bei der Wahrnehmung von Benutzeroberflächen wie Menschen, was die Notwendigkeit von GUI-Visuellen Agenten unterstreicht. In dieser Arbeit entwickeln wir ein Vision-Sprache-Aktionsmodell in der digitalen Welt, namens ShowUI, das folgende Innovationen aufweist: (i) UI-geführte visuelle Token-Auswahl zur Reduzierung von Rechenkosten durch Formulierung von Bildschirmfotos als UI-verbundener Graph, adaptives Identifizieren ihrer redundanten Beziehung und als Kriterium für die Token-Auswahl während der Selbst-Aufmerksamkeitsblöcke dient; (ii) Verflochtener Vision-Sprache-Aktions-Stream, der unterschiedliche Anforderungen innerhalb von GUI-Aufgaben flexibel vereint, eine effektive Verwaltung von visuell-aktionsgeschichtlichen Navigations- oder Paarungs-Mehrwege-Abfrage-Aktionssequenzen pro Bildschirmfoto ermöglicht, um die Trainingseffizienz zu steigern; (iii) Kleinmaßstäbliche hochwertige GUI-Anweisungsfolge-Datensätze durch sorgfältige Datenaufbereitung und Einsatz einer Neubeprobungsstrategie zur Bewältigung signifikanter Datentyp-Ungleichgewichte. Mit den oben genannten Komponenten erreicht ShowUI, ein leichtgewichtiges 2B-Modell unter Verwendung von 256K Daten, eine starke Genauigkeit von 75,1% bei der Nullschuss-Bildschirmfotoverankerung. Die UI-geführte Token-Auswahl reduziert während des Trainings weitere 33% redundanter visueller Tokens und beschleunigt die Leistung um das 1,4-fache. Navigations-Experimente über die Web Mind2Web, mobile AITW und Online MiniWob-Umgebungen unterstreichen weiter die Effektivität und das Potenzial unseres Modells bei der Weiterentwicklung von GUI-Visuellen Agenten. Die Modelle sind unter https://github.com/showlab/ShowUI verfügbar.