OmniMMI: Ein umfassender Benchmark für multimodale Interaktion in Streaming-Videokontexten
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts
March 29, 2025
Autoren: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung multimodaler Sprachmodelle (MLLMs) wie GPT-4o hat die Entwicklung von Omni-Sprachmodellen vorangetrieben, die darauf ausgelegt sind, kontinuierliche Datenströme aus verschiedenen Modalitäten zu verarbeiten und proaktiv darauf zu reagieren. Trotz ihres Potenzials bleibt die Bewertung ihrer interaktiven Fähigkeiten in Echtzeit-Videokontexten eine große Herausforderung. In dieser Arbeit stellen wir OmniMMI vor, einen umfassenden Benchmark für multimodale Interaktion, der speziell für OmniLLMs in Echtzeit-Videokontexten entwickelt wurde. OmniMMI umfasst über 1.121 Videos und 2.290 Fragen und adressiert zwei kritische, aber bisher wenig erforschte Herausforderungen in bestehenden Video-Benchmarks: das Verständnis von Echtzeit-Videos und proaktives Schlussfolgern über sechs verschiedene Teilaufgaben hinweg. Darüber hinaus schlagen wir ein neuartiges Framework vor, das Multi-modal Multiplexing Modeling (M4), das darauf abzielt, ein inferenzeffizientes Streaming-Modell zu ermöglichen, das gleichzeitig sehen, hören und generieren kann.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has
propelled the development of Omni language models, designed to process and
proactively respond to continuous streams of multi-modal data. Despite their
potential, evaluating their real-world interactive capabilities in streaming
video contexts remains a formidable challenge. In this work, we introduce
OmniMMI, a comprehensive multi-modal interaction benchmark tailored for
OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and
2,290 questions, addressing two critical yet underexplored challenges in
existing video benchmarks: streaming video understanding and proactive
reasoning, across six distinct subtasks. Moreover, we propose a novel
framework, Multi-modal Multiplexing Modeling (M4), designed to enable an
inference-efficient streaming model that can see, listen while generating.Summary
AI-Generated Summary