OmniGUI: Benchmarking de Agentes GUI em Ambientes de Smartphone Omni-Modais

Resumo

Os benchmarks atuais para agentes de interface gráfica do usuário (GUI) dependem predominantemente de capturas de tela estáticas. No entanto, a interação com smartphones no mundo real exige que agentes processem, rotineiramente, dicas auditivas transitórias e dinâmicas temporais de vídeo que estão intrinsecamente ligadas ao momento da ação. Para preencher essa lacuna, apresentamos o OmniGUI, o primeiro benchmark em nível de passo projetado para avaliar agentes GUI em ambientes de smartphone omni-modais. O OmniGUI fornece entradas multimodais contínuas e intercaladas, compreendendo imagens estáticas, áudio síncrono e clipes de vídeo em cada passo de ação. O conjunto de dados abrange 709 episódios demonstrados por especialistas (2.579 passos de ação) em 29 aplicativos, anotados sistematicamente com níveis objetivos de dependência multimodal. Devido ao fato de que frameworks dedicados de agentes GUI omni-modais ainda estão em estágio incipiente, selecionamos modelos omni-modais fundamentais capazes de processar nativamente entradas intercaladas para atuarem como proxies de agentes para nossas linhas de base iniciais. Nossa avaliação empírica revela que, embora os modelos atuais demonstrem competência em tarefas visualmente estáticas, seu desempenho de predição de ação degrada significativamente em ambientes que exigem sinais temporais e auditivos síncronos. Além disso, estudos de ablação isolam gargalos operacionais específicos, notadamente a interferência cross-modal ao processar ruído ambiental irrelevante para a tarefa. O conjunto de dados completo, o pipeline de avaliação e as instruções de linha de base são fornecidos no material suplementar. Página do projeto: https://omni-gui.github.io.

English

Current benchmarks for graphical user interface (GUI) agents predominantly rely on static screenshots. However, real-world smartphone interaction routinely requires agents to process transient audio cues and temporal video dynamics that are tightly coupled with the moment of action. To bridge this gap, we introduce OmniGUI, the first step-level benchmark designed to evaluate GUI agents in omni-modal smartphone environments. OmniGUI provides continuous, interleaved multimodal inputs comprising static images, synchronous audio, and video clips at every action step. The dataset encompasses 709 expert-demonstrated episodes (2,579 action steps) across 29 applications, systematically annotated with objective multimodal dependency levels. Because dedicated omni-modal GUI agent frameworks are currently in their nascent stage, we select foundational omni-modal models capable of natively processing interleaved inputs to serve as agent proxies for our initial baselines. Our empirical evaluation reveals that while current models exhibit competency on visually static tasks, their action prediction performance degrades significantly in environments requiring synchronous temporal and auditory signals. Furthermore, ablation studies isolate specific operational bottlenecks, notably cross-modal interference when processing task-irrelevant environmental noise. The complete dataset, evaluation pipeline, and baseline prompts are provided in the supplementary material. Project page: https://omni-gui.github.io.