ChatPaper.aiChatPaper

OmniMMI : Un benchmark complet d'interaction multimodale dans les contextes de vidéo en streaming

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

March 29, 2025
Auteurs: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI

Résumé

L'évolution rapide des modèles de langage multi-modaux (MLLMs) comme GPT-4o a propulsé le développement des modèles de langage Omni, conçus pour traiter et répondre de manière proactive à des flux continus de données multi-modales. Malgré leur potentiel, évaluer leurs capacités interactives en contexte réel dans des flux vidéo reste un défi de taille. Dans ce travail, nous présentons OmniMMI, un benchmark complet d'interaction multi-modale spécialement conçu pour les OmniLLMs dans des contextes de flux vidéo. OmniMMI englobe plus de 1 121 vidéos et 2 290 questions, abordant deux défis critiques mais encore peu explorés dans les benchmarks vidéo existants : la compréhension des flux vidéo et le raisonnement proactif, à travers six sous-tâches distinctes. De plus, nous proposons un nouveau cadre, le Modèle de Multiplexage Multi-modal (M4), conçu pour permettre un modèle de streaming efficace en inférence, capable de voir, écouter tout en générant.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has propelled the development of Omni language models, designed to process and proactively respond to continuous streams of multi-modal data. Despite their potential, evaluating their real-world interactive capabilities in streaming video contexts remains a formidable challenge. In this work, we introduce OmniMMI, a comprehensive multi-modal interaction benchmark tailored for OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and 2,290 questions, addressing two critical yet underexplored challenges in existing video benchmarks: streaming video understanding and proactive reasoning, across six distinct subtasks. Moreover, we propose a novel framework, Multi-modal Multiplexing Modeling (M4), designed to enable an inference-efficient streaming model that can see, listen while generating.

Summary

AI-Generated Summary

PDF182April 2, 2025