ChatPaper.aiChatPaper

OmniMMI: 스트리밍 비디오 컨텍스트에서의 포괄적인 멀티모달 상호작용 벤치마크

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

March 29, 2025
저자: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI

초록

GPT-4o와 같은 다중 모달 언어 모델(MLLMs)의 급속한 발전은 연속적인 다중 모달 데이터 스트림을 처리하고 능동적으로 대응할 수 있는 Omni 언어 모델의 개발을 촉진시켰습니다. 이러한 잠재력에도 불구하고, 스트리밍 비디오 환경에서의 실제 상호작용 능력을 평가하는 것은 여전히 큰 도전 과제로 남아 있습니다. 본 연구에서는 스트리밍 비디오 환경에서 OmniLLMs를 위해 특별히 설계된 포괄적인 다중 모달 상호작용 벤치마크인 OmniMMI를 소개합니다. OmniMMI는 1,121개 이상의 비디오와 2,290개의 질문을 포함하며, 기존 비디오 벤치마크에서 충분히 탐구되지 않은 두 가지 중요한 과제인 스트리밍 비디오 이해와 능동적 추론을 여섯 가지 세부 과제에 걸쳐 다룹니다. 더불어, 본 연구에서는 생성 과정에서 보고 들을 수 있는 추론 효율적인 스트리밍 모델을 가능하게 하는 새로운 프레임워크인 다중 모달 멀티플렉싱 모델링(M4)을 제안합니다.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has propelled the development of Omni language models, designed to process and proactively respond to continuous streams of multi-modal data. Despite their potential, evaluating their real-world interactive capabilities in streaming video contexts remains a formidable challenge. In this work, we introduce OmniMMI, a comprehensive multi-modal interaction benchmark tailored for OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and 2,290 questions, addressing two critical yet underexplored challenges in existing video benchmarks: streaming video understanding and proactive reasoning, across six distinct subtasks. Moreover, we propose a novel framework, Multi-modal Multiplexing Modeling (M4), designed to enable an inference-efficient streaming model that can see, listen while generating.

Summary

AI-Generated Summary

PDF182April 2, 2025