OmniMMI: Un punto de referencia integral para la interacción multimodal en contextos de video en streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts
March 29, 2025
Autores: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI
Resumen
El rápido avance de los modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) como GPT-4o ha impulsado el desarrollo de modelos de lenguaje Omni, diseñados para procesar y responder proactivamente a flujos continuos de datos multimodales. A pesar de su potencial, evaluar sus capacidades interactivas en contextos del mundo real, como en videos en streaming, sigue siendo un desafío formidable. En este trabajo, presentamos OmniMMI, un punto de referencia integral de interacción multimodal diseñado específicamente para OmniLLMs en contextos de video en streaming. OmniMMI abarca más de 1,121 videos y 2,290 preguntas, abordando dos desafíos críticos y poco explorados en los puntos de referencia de video existentes: la comprensión de videos en streaming y el razonamiento proactivo, a través de seis subtareas distintas. Además, proponemos un marco novedoso, el Modelado de Multiplexación Multimodal (M4), diseñado para permitir un modelo de streaming eficiente en la inferencia que pueda ver, escuchar y generar simultáneamente.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has
propelled the development of Omni language models, designed to process and
proactively respond to continuous streams of multi-modal data. Despite their
potential, evaluating their real-world interactive capabilities in streaming
video contexts remains a formidable challenge. In this work, we introduce
OmniMMI, a comprehensive multi-modal interaction benchmark tailored for
OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and
2,290 questions, addressing two critical yet underexplored challenges in
existing video benchmarks: streaming video understanding and proactive
reasoning, across six distinct subtasks. Moreover, we propose a novel
framework, Multi-modal Multiplexing Modeling (M4), designed to enable an
inference-efficient streaming model that can see, listen while generating.Summary
AI-Generated Summary