RIVER : Un benchmark d'interaction en temps réel pour les LLM vidéo

Résumé

Les progrès rapides des modèles linguistiques multimodaux de grande taille ont démontré des capacités impressionnantes, mais presque tous fonctionnent selon un paradigme hors ligne, ce qui entrave l’interactivité en temps réel. Pour combler cette lacune, nous présentons le banc d’évaluation Real-tIme Video intERaction (RIVER Bench), conçu pour évaluer la compréhension vidéo en ligne. RIVER Bench introduit un cadre novateur comprenant des tâches de mémoire rétrospective, de perception en direct et d’anticipation proactive, imitant étroitement des dialogues interactifs plutôt que de répondre à des vidéos entières en une seule fois. Nous avons réalisé des annotations détaillées à l’aide de vidéos provenant de sources diverses et de longueurs variables, et avons défini précisément le format interactif en temps réel. Les évaluations menées sur diverses catégories de modèles révèlent que si les modèles hors ligne performent bien dans les tâches de questions-réponses uniques, ils peinent à traiter les données en temps réel. Face aux limites des modèles existants en matière d’interaction vidéo en ligne, notamment leurs lacunes en mémoire à long terme et en perception future, nous avons proposé une méthode d’amélioration générale permettant aux modèles d’interagir plus flexibly avec les utilisateurs en temps réel. Nous pensons que ces travaux feront significativement progresser le développement de modèles de compréhension vidéo interactifs en temps réel et inspireront les recherches futures dans ce domaine émergent. Les jeux de données et le code sont disponibles publiquement à l’adresse https://github.com/OpenGVLab/RIVER.

English

The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.

RIVER : Un benchmark d'interaction en temps réel pour les LLM vidéo

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Résumé

Support