RIVER: Een Real-Time Interactiebenchmark voor Video-LLM's

Samenvatting

De snelle vooruitgang van multimodale grote taalmodellen heeft indrukwekkende capaciteiten getoond, maar bijna allemaal functioneren ze volgens een offline paradigma, wat real-time interactiviteit belemmert. Om deze kloof te overbruggen, introduceren we de Real-tIme Video intERaction Bench (RIVER Bench), ontworpen voor het evalueren van online videobegrip. RIVER Bench introduceert een nieuw raamwerk bestaande uit Retrospectief Geheugen, Live-Waarneming en Proactieve Anticipatietaken, dat interactieve dialogen nauwkeurig nabootst in plaats van op volledige video's in één keer te reageren. We voerden gedetailleerde annotaties uit met video's uit diverse bronnen en van uiteenlopende lengtes, en definieerden het real-time interactieve formaat precies. Evaluaties across verschillende modelcategorieën tonen aan dat offline modellen weliswaar goed presteren in taken met enkele vraag-antwoordparen, maar moeite hebben met real-time verwerking. Om de beperkingen van bestaande modellen in online video-interactie aan te pakken, met name hun tekortkomingen in langetermijngeheugen en toekomstperceptie, stelden we een algemene verbetermethode voor die modellen in staat stelt flexibeler real-time met gebruikers te interacteren. Wij zijn van mening dat dit werk de ontwikkeling van real-time interactieve videobegripsmodellen aanzienlijk zal bevorderen en toekomstig onderzoek in dit opkomende veld zal inspireren. Datasets en code zijn openbaar beschikbaar op https://github.com/OpenGVLab/RIVER.

English

The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.

RIVER: Een Real-Time Interactiebenchmark voor Video-LLM's

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Samenvatting

Support