ChatPaper.aiChatPaper

OmniMMI: Um Benchmark Abrangente de Interação Multimodal em Contextos de Vídeo em Streaming

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

March 29, 2025
Autores: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI

Resumo

O rápido avanço dos modelos de linguagem multimodal (MLLMs), como o GPT-4o, impulsionou o desenvolvimento dos modelos de linguagem Omni, projetados para processar e responder proativamente a fluxos contínuos de dados multimodais. Apesar de seu potencial, avaliar suas capacidades interativas no mundo real em contextos de vídeo em streaming continua sendo um desafio formidável. Neste trabalho, apresentamos o OmniMMI, um benchmark abrangente de interação multimodal projetado para OmniLLMs em contextos de vídeo em streaming. O OmniMMI abrange mais de 1.121 vídeos e 2.290 perguntas, abordando dois desafios críticos e ainda pouco explorados nos benchmarks de vídeo existentes: compreensão de vídeo em streaming e raciocínio proativo, distribuídos em seis subtarefas distintas. Além disso, propomos um novo framework, o Multi-modal Multiplexing Modeling (M4), projetado para permitir um modelo de streaming eficiente em inferência que possa ver, ouvir enquanto gera.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has propelled the development of Omni language models, designed to process and proactively respond to continuous streams of multi-modal data. Despite their potential, evaluating their real-world interactive capabilities in streaming video contexts remains a formidable challenge. In this work, we introduce OmniMMI, a comprehensive multi-modal interaction benchmark tailored for OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and 2,290 questions, addressing two critical yet underexplored challenges in existing video benchmarks: streaming video understanding and proactive reasoning, across six distinct subtasks. Moreover, we propose a novel framework, Multi-modal Multiplexing Modeling (M4), designed to enable an inference-efficient streaming model that can see, listen while generating.

Summary

AI-Generated Summary

PDF182April 2, 2025