OmniGUI: Бенчмаркинг GUI-агентов в омни-модальных средах смартфонов

Аннотация

Современные бенчмарки для агентов графического пользовательского интерфейса (GUI) в основном полагаются на статические снимки экрана. Однако реальное взаимодействие со смартфоном часто требует от агентов обработки кратковременных аудиосигналов и динамики видео во времени, которые тесно связаны с моментом действия. Для преодоления этого разрыва мы представляем OmniGUI — первый пошаговый бенчмарк, предназначенный для оценки GUI-агентов в омни-модальных средах смартфонов. OmniGUI предоставляет непрерывные, перемежающиеся мультимодальные входные данные, включающие статические изображения, синхронное аудио и видеоклипы на каждом этапе действия. Набор данных охватывает 709 эпизодов, продемонстрированных экспертами (2 579 шагов действий), в 29 приложениях, систематически аннотированных с указанием объективных уровней мультимодальной зависимости. Поскольку специализированные фреймворки для омни-модальных GUI-агентов находятся на начальной стадии развития, мы выбрали фундаментальные омни-модальные модели, способные нативно обрабатывать перемежающиеся входные данные, в качестве прокси-агентов для наших исходных базовых линий. Наша эмпирическая оценка показывает, что хотя текущие модели демонстрируют компетентность в визуально статичных задачах, их производительность в прогнозировании действий значительно снижается в средах, требующих синхронных временных и слуховых сигналов. Кроме того, абляционные исследования выявляют конкретные операционные узкие места, в частности перекрестную модальную интерференцию при обработке нерелевантного задаче фонового шума. Полный набор данных, конвейер оценки и базовые промпты предоставлены в дополнительных материалах. Страница проекта: https://omni-gui.github.io.

English

Current benchmarks for graphical user interface (GUI) agents predominantly rely on static screenshots. However, real-world smartphone interaction routinely requires agents to process transient audio cues and temporal video dynamics that are tightly coupled with the moment of action. To bridge this gap, we introduce OmniGUI, the first step-level benchmark designed to evaluate GUI agents in omni-modal smartphone environments. OmniGUI provides continuous, interleaved multimodal inputs comprising static images, synchronous audio, and video clips at every action step. The dataset encompasses 709 expert-demonstrated episodes (2,579 action steps) across 29 applications, systematically annotated with objective multimodal dependency levels. Because dedicated omni-modal GUI agent frameworks are currently in their nascent stage, we select foundational omni-modal models capable of natively processing interleaved inputs to serve as agent proxies for our initial baselines. Our empirical evaluation reveals that while current models exhibit competency on visually static tasks, their action prediction performance degrades significantly in environments requiring synchronous temporal and auditory signals. Furthermore, ablation studies isolate specific operational bottlenecks, notably cross-modal interference when processing task-irrelevant environmental noise. The complete dataset, evaluation pipeline, and baseline prompts are provided in the supplementary material. Project page: https://omni-gui.github.io.