OmniMMI: Um Benchmark Abrangente de Interação Multimodal em Contextos de Vídeo em Streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts
March 29, 2025
Autores: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI
Resumo
O rápido avanço dos modelos de linguagem multimodal (MLLMs), como o GPT-4o, impulsionou o desenvolvimento dos modelos de linguagem Omni, projetados para processar e responder proativamente a fluxos contínuos de dados multimodais. Apesar de seu potencial, avaliar suas capacidades interativas no mundo real em contextos de vídeo em streaming continua sendo um desafio formidável. Neste trabalho, apresentamos o OmniMMI, um benchmark abrangente de interação multimodal projetado para OmniLLMs em contextos de vídeo em streaming. O OmniMMI abrange mais de 1.121 vídeos e 2.290 perguntas, abordando dois desafios críticos e ainda pouco explorados nos benchmarks de vídeo existentes: compreensão de vídeo em streaming e raciocínio proativo, distribuídos em seis subtarefas distintas. Além disso, propomos um novo framework, o Multi-modal Multiplexing Modeling (M4), projetado para permitir um modelo de streaming eficiente em inferência que possa ver, ouvir enquanto gera.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has
propelled the development of Omni language models, designed to process and
proactively respond to continuous streams of multi-modal data. Despite their
potential, evaluating their real-world interactive capabilities in streaming
video contexts remains a formidable challenge. In this work, we introduce
OmniMMI, a comprehensive multi-modal interaction benchmark tailored for
OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and
2,290 questions, addressing two critical yet underexplored challenges in
existing video benchmarks: streaming video understanding and proactive
reasoning, across six distinct subtasks. Moreover, we propose a novel
framework, Multi-modal Multiplexing Modeling (M4), designed to enable an
inference-efficient streaming model that can see, listen while generating.Summary
AI-Generated Summary