OmniGUI: Benchmarking von GUI-Agenten in omni-modalen Smartphone-Umgebungen

Zusammenfassung

Aktuelle Benchmarks für grafische Benutzeroberflächen (GUI)-Agenten basieren überwiegend auf statischen Bildschirmaufnahmen. In der realen Smartphone-Interaktion müssen Agenten jedoch routinemäßig flüchtige Audiohinweise und zeitliche Videodynamiken verarbeiten, die eng mit dem Moment der Aktion verknüpft sind. Um diese Lücke zu schließen, führen wir OmniGUI ein, den ersten Benchmark auf Schritt-Ebene, der dazu entwickelt wurde, GUI-Agenten in omnimodalen Smartphone-Umgebungen zu evaluieren. OmniGUI bietet kontinuierliche, verschachtelte multimodale Eingaben, die pro Aktionsschritt statische Bilder, synchrones Audio und Videoclips umfassen. Der Datensatz umfasst 709 von Experten demonstrierte Episoden (2.579 Aktionsschritte) aus 29 Anwendungen, die systematisch mit objektiven multimodalen Abhängigkeitsstufen annotiert sind. Da sich dedizierte omnimodale GUI-Agent-Frameworks derzeit noch in einem frühen Stadium befinden, wählen wir grundlegende omnimodale Modelle, die nativ verschachtelte Eingaben verarbeiten können, als Agent-Proxys für unsere ersten Baselines. Unsere empirische Bewertung zeigt, dass aktuelle Modelle zwar bei visuell statischen Aufgaben Kompetenz aufweisen, ihre Aktionsvorhersageleistung jedoch in Umgebungen, die zeitgleiche zeitliche und auditive Signale erfordern, erheblich nachlässt. Darüber hinaus isolieren Ablationsstudien spezifische operationelle Engpässe, insbesondere modalübergreifende Interferenzen bei der Verarbeitung aufgabenirrelevanter Umgebungsgeräusche. Der vollständige Datensatz, die Evaluierungspipeline und die Basisaufforderungen sind im ergänzenden Material bereitgestellt. Projektseite: https://omni-gui.github.io.

English

Current benchmarks for graphical user interface (GUI) agents predominantly rely on static screenshots. However, real-world smartphone interaction routinely requires agents to process transient audio cues and temporal video dynamics that are tightly coupled with the moment of action. To bridge this gap, we introduce OmniGUI, the first step-level benchmark designed to evaluate GUI agents in omni-modal smartphone environments. OmniGUI provides continuous, interleaved multimodal inputs comprising static images, synchronous audio, and video clips at every action step. The dataset encompasses 709 expert-demonstrated episodes (2,579 action steps) across 29 applications, systematically annotated with objective multimodal dependency levels. Because dedicated omni-modal GUI agent frameworks are currently in their nascent stage, we select foundational omni-modal models capable of natively processing interleaved inputs to serve as agent proxies for our initial baselines. Our empirical evaluation reveals that while current models exhibit competency on visually static tasks, their action prediction performance degrades significantly in environments requiring synchronous temporal and auditory signals. Furthermore, ablation studies isolate specific operational bottlenecks, notably cross-modal interference when processing task-irrelevant environmental noise. The complete dataset, evaluation pipeline, and baseline prompts are provided in the supplementary material. Project page: https://omni-gui.github.io.