ChatPaper.aiChatPaper

OmniMMI: Een Uitgebreide Benchmark voor Multi-modale Interactie in de Context van Streamingvideo's

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

March 29, 2025
Auteurs: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI

Samenvatting

De snelle vooruitgang van multimodale taalmodelen (MLLMs) zoals GPT-4o heeft de ontwikkeling van Omni-taalmodelen gestimuleerd, die zijn ontworpen om continue stromen van multimodale gegevens te verwerken en proactief te reageren. Ondanks hun potentieel blijft het evalueren van hun interactieve mogelijkheden in real-world streamingvideocontexten een aanzienlijke uitdaging. In dit werk introduceren we OmniMMI, een uitgebreide multimodale interactiebenchmark die is afgestemd op OmniLLMs in streamingvideocontexten. OmniMMI omvat meer dan 1.121 video's en 2.290 vragen, waarbij twee kritieke maar onderbelichte uitdagingen in bestaande videobenchmarks worden aangepakt: het begrijpen van streamingvideo's en proactief redeneren, verdeeld over zes verschillende subtaken. Bovendien stellen we een nieuw raamwerk voor, Multi-modal Multiplexing Modeling (M4), dat is ontworpen om een inferentie-efficiënt streamingmodel mogelijk te maken dat kan zien, luisteren en tegelijkertijd genereren.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has propelled the development of Omni language models, designed to process and proactively respond to continuous streams of multi-modal data. Despite their potential, evaluating their real-world interactive capabilities in streaming video contexts remains a formidable challenge. In this work, we introduce OmniMMI, a comprehensive multi-modal interaction benchmark tailored for OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and 2,290 questions, addressing two critical yet underexplored challenges in existing video benchmarks: streaming video understanding and proactive reasoning, across six distinct subtasks. Moreover, we propose a novel framework, Multi-modal Multiplexing Modeling (M4), designed to enable an inference-efficient streaming model that can see, listen while generating.

Summary

AI-Generated Summary

PDF182April 2, 2025