RIVER: Un Benchmark per l'Interazione in Tempo Reale per Video LLM

Abstract

Il rapido progresso dei modelli linguistici multimodali di grandi dimensioni ha dimostrato capacità impressionanti, ma quasi tutti operano in un paradigma offline, ostacolando l'interattività in tempo reale. Per colmare questa lacuna, introduciamo il Real-tIme Video intERaction Bench (RIVER Bench), progettato per valutare la comprensione video online. RIVER Bench introduce un nuovo framework composto da compiti di Memoria Retrospettiva, Percezione Live e Anticipazione Proattiva, che imita da vicino dialoghi interattivi piuttosto che rispondere a interi video in una sola volta. Abbiamo condotto annotazioni dettagliate utilizzando video provenienti da fonti diverse e di lunghezze variabili, definendo precisamente il formato interattivo in tempo reale. Le valutazioni su varie categorie di modelli rivelano che, sebbene i modelli offline performino bene in compiti singoli di domanda-risposta, faticano nell'elaborazione in tempo reale. Per affrontare le limitazioni dei modelli esistenti nell'interazione video online, in particolare le loro carenze nella memoria a lungo termine e nella percezione futura, abbiamo proposto un metodo di miglioramento generale che consente ai modelli di interagire con gli utenti in modo più flessibile in tempo reale. Riteniamo che questo lavoro avanzerà significativamente lo sviluppo di modelli di comprensione video interattivi in tempo reale e ispirerà future ricerche in questo campo emergente. Dataset e codice sono pubblicamente disponibili su https://github.com/OpenGVLab/RIVER.

English

The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.

RIVER: Un Benchmark per l'Interazione in Tempo Reale per Video LLM

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Abstract

Support