OmniVideoBench: Naar evaluatie van audio-visueel begrip voor Omni-MLLM's

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen (MLLMs) heeft aanzienlijk potentieel getoond in videobegrip. Bestaande benchmarks slagen er echter niet in om synergetische redeneervaardigheden over audio- en visuele modaliteiten uitgebreid te evalueren, waarbij vaak één van de modaliteiten wordt verwaarloosd of ze op een logisch inconsistente manier worden geïntegreerd. Om deze kloof te overbruggen, introduceren we OmniVideoBench, een grootschalige en zorgvuldig ontworpen benchmark die is gewijd aan het beoordelen van synergetisch audio-visueel begrip, met een sterke nadruk op modaliteitscomplementariteit en logische consistentie. Specifiek bestaat OmniVideoBench uit 1000 hoogwaardige vraag-antwoordparen (QA), elk geannoteerd met stapsgewijze redeneersporen, afgeleid van 628 diverse video's variërend van enkele seconden tot 30 minuten, en handmatig geverifieerd om volledige correctheid en uniciteit te garanderen. Bovendien omvat OmniVideoBench 13 zorgvuldig ontworpen vraagtypen, die temporeel redeneren, ruimtelijke lokalisatie, tellen, causale inferentie, samenvatting en meer bestrijken, waardoor de essentiële uitdagingen van videobegrip worden vastgelegd. Evaluatie van meerdere MLLMs op OmniVideoBench onthult een opvallend gat tussen modelprestaties en menselijk redeneren, waarbij open-source modellen aanzienlijk achterblijven bij hun closed-source tegenhangers, wat de inherente moeilijkheid van echt audio-visueel redeneren onderstreept. We zullen OmniVideoBench vrijgeven om de ontwikkeling van MLLMs met sterkere en meer generaliseerbare redeneervaardigheden te bevorderen.

English

Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.

OmniVideoBench: Naar evaluatie van audio-visueel begrip voor Omni-MLLM's

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Samenvatting

Support