OmniMMI: Комплексный бенчмарк для многомодального взаимодействия в контексте потокового видео
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts
March 29, 2025
Авторы: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI
Аннотация
Быстрое развитие мультимодальных языковых моделей (MLLMs), таких как GPT-4o, стимулировало создание Omni-языковых моделей, предназначенных для обработки и активного реагирования на непрерывные потоки мультимодальных данных. Несмотря на их потенциал, оценка их интерактивных возможностей в реальных условиях, особенно в контексте потокового видео, остается серьезной проблемой. В данной работе мы представляем OmniMMI — всеобъемлющий бенчмарк для мультимодального взаимодействия, разработанный специально для OmniLLMs в контексте потокового видео. OmniMMI включает более 1 121 видео и 2 290 вопросов, охватывая две важные, но недостаточно изученные проблемы в существующих видео-бенчмарках: понимание потокового видео и активное рассуждение, распределенные по шести различным подзадачам. Кроме того, мы предлагаем новую архитектуру — Multi-modal Multiplexing Modeling (M4), которая позволяет создать эффективную в плане вывода потоковую модель, способную одновременно видеть, слушать и генерировать.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has
propelled the development of Omni language models, designed to process and
proactively respond to continuous streams of multi-modal data. Despite their
potential, evaluating their real-world interactive capabilities in streaming
video contexts remains a formidable challenge. In this work, we introduce
OmniMMI, a comprehensive multi-modal interaction benchmark tailored for
OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and
2,290 questions, addressing two critical yet underexplored challenges in
existing video benchmarks: streaming video understanding and proactive
reasoning, across six distinct subtasks. Moreover, we propose a novel
framework, Multi-modal Multiplexing Modeling (M4), designed to enable an
inference-efficient streaming model that can see, listen while generating.Summary
AI-Generated Summary