OmniGUI : Évaluation comparative des agents GUI dans des environnements smartphone omni-modaux

Résumé

Les benchmarks actuels pour les agents d’interfaces utilisateur graphiques (GUI) reposent principalement sur des captures d’écran statiques. Pourtant, l’interaction avec un smartphone dans un contexte réel exige régulièrement que les agents traitent des indices audio transitoires et des dynamiques vidéo temporelles étroitement liés au moment de l’action. Pour combler cette lacune, nous présentons OmniGUI, le premier benchmark au niveau des étapes conçu pour évaluer les agents GUI dans des environnements de smartphone omni-modaux. OmniGUI fournit des entrées multimodales continues et entrelacées, comprenant des images statiques, de l’audio synchrone et des clips vidéo à chaque étape d’action. Le jeu de données couvre 709 épisodes démontrés par des experts (2 579 étapes d’action) répartis sur 29 applications, annotés systématiquement avec des niveaux objectifs de dépendance multimodale. En raison du stade embryonnaire des frameworks d’agents GUI omni-modaux dédiés, nous sélectionnons des modèles omni-modaux fondamentaux capables de traiter nativement des entrées entrelacées pour servir de proxies d’agents pour nos lignes de base initiales. Notre évaluation empirique révèle que, bien que les modèles actuels soient compétents pour les tâches visuellement statiques, leurs performances de prédiction d’action se dégradent significativement dans des environnements nécessitant des signaux temporels et auditifs synchrones. De plus, des études d’ablation isolent des goulots d’étranglement opérationnels spécifiques, notamment l’interférence intermodale lors du traitement d’un bruit environnemental non pertinent pour la tâche. Le jeu de données complet, le pipeline d’évaluation et les invites de base sont fournis dans le matériel supplémentaire. Page du projet : https://omni-gui.github.io.

English

Current benchmarks for graphical user interface (GUI) agents predominantly rely on static screenshots. However, real-world smartphone interaction routinely requires agents to process transient audio cues and temporal video dynamics that are tightly coupled with the moment of action. To bridge this gap, we introduce OmniGUI, the first step-level benchmark designed to evaluate GUI agents in omni-modal smartphone environments. OmniGUI provides continuous, interleaved multimodal inputs comprising static images, synchronous audio, and video clips at every action step. The dataset encompasses 709 expert-demonstrated episodes (2,579 action steps) across 29 applications, systematically annotated with objective multimodal dependency levels. Because dedicated omni-modal GUI agent frameworks are currently in their nascent stage, we select foundational omni-modal models capable of natively processing interleaved inputs to serve as agent proxies for our initial baselines. Our empirical evaluation reveals that while current models exhibit competency on visually static tasks, their action prediction performance degrades significantly in environments requiring synchronous temporal and auditory signals. Furthermore, ablation studies isolate specific operational bottlenecks, notably cross-modal interference when processing task-irrelevant environmental noise. The complete dataset, evaluation pipeline, and baseline prompts are provided in the supplementary material. Project page: https://omni-gui.github.io.