OmniGUI: Evaluación Comparativa de Agentes GUI en Entornos de Smartphone Omni-Modales

Resumen

Los benchmarks actuales para agentes de interfaz gráfica de usuario (GUI) se basan predominantemente en capturas de pantalla estáticas. Sin embargo, la interacción rutinaria con teléfonos inteligentes exige que los agentes procesen señales auditivas transitorias y dinámicas de video temporales que están estrechamente vinculadas al momento de la acción. Para cerrar esta brecha, presentamos OmniGUI, el primer benchmark a nivel de paso diseñado para evaluar agentes GUI en entornos omnimodales de teléfonos inteligentes. OmniGUI proporciona entradas multimodales continuas e intercaladas que incluyen imágenes estáticas, audio sincrónico y clips de video en cada paso de acción. El conjunto de datos abarca 709 episodios demostrados por expertos (2579 pasos de acción) en 29 aplicaciones, anotados sistemáticamente con niveles objetivos de dependencia multimodal. Debido a que los marcos dedicados para agentes GUI omnimodales se encuentran aún en una etapa incipiente, seleccionamos modelos omnimodales fundamentales capaces de procesar de forma nativa entradas intercaladas para que sirvan como proxies de agente en nuestras líneas base iniciales. Nuestra evaluación empírica revela que, si bien los modelos actuales muestran competencia en tareas visualmente estáticas, su rendimiento en la predicción de acciones se degrada significativamente en entornos que requieren señales auditivas y temporales sincrónicas. Además, los estudios de ablación aíslan cuellos de botella operativos específicos, especialmente la interferencia entre modalidades al procesar ruido ambiental irrelevante para la tarea. El conjunto de datos completo, el pipeline de evaluación y las indicaciones base se proporcionan en el material complementario. Página del proyecto: https://omni-gui.github.io.

English

Current benchmarks for graphical user interface (GUI) agents predominantly rely on static screenshots. However, real-world smartphone interaction routinely requires agents to process transient audio cues and temporal video dynamics that are tightly coupled with the moment of action. To bridge this gap, we introduce OmniGUI, the first step-level benchmark designed to evaluate GUI agents in omni-modal smartphone environments. OmniGUI provides continuous, interleaved multimodal inputs comprising static images, synchronous audio, and video clips at every action step. The dataset encompasses 709 expert-demonstrated episodes (2,579 action steps) across 29 applications, systematically annotated with objective multimodal dependency levels. Because dedicated omni-modal GUI agent frameworks are currently in their nascent stage, we select foundational omni-modal models capable of natively processing interleaved inputs to serve as agent proxies for our initial baselines. Our empirical evaluation reveals that while current models exhibit competency on visually static tasks, their action prediction performance degrades significantly in environments requiring synchronous temporal and auditory signals. Furthermore, ablation studies isolate specific operational bottlenecks, notably cross-modal interference when processing task-irrelevant environmental noise. The complete dataset, evaluation pipeline, and baseline prompts are provided in the supplementary material. Project page: https://omni-gui.github.io.