RIVER: Un Punto de Referencia de Interacción en Tiempo Real para Modelos de Lenguaje Grandes de Video

Resumen

El rápido avance de los modelos de lenguaje multimodal ha demostrado capacidades impresionantes, aunque casi todos operan en un paradigma fuera de línea, lo que dificulta la interactividad en tiempo real. Para abordar esta brecha, presentamos el Real-tIme Video intERaction Bench (RIVER Bench), diseñado para evaluar la comprensión de vídeo en línea. RIVER Bench introduce un marco novedoso que comprende tareas de Memoria Retrospectiva, Percepción en Vivo y Anticipación Proactiva, imitando de cerca los diálogos interactivos en lugar de responder a vídeos completos de una sola vez. Realizamos anotaciones detalladas utilizando vídeos de diversas fuentes y duraciones, y definimos con precisión el formato interactivo en tiempo real. Las evaluaciones en varias categorías de modelos revelan que, aunque los modelos fuera de línea se desempeñan bien en tareas de preguntas y respuestas únicas, tienen dificultades con el procesamiento en tiempo real. Para abordar las limitaciones de los modelos existentes en la interacción con vídeo en línea, especialmente sus deficiencias en memoria a largo plazo y percepción futura, propusimos un método de mejora general que permite a los modelos interactuar con los usuarios de manera más flexible en tiempo real. Creemos que este trabajo impulsará significativamente el desarrollo de modelos de comprensión de vídeo interactivos en tiempo real e inspirará futuras investigaciones en este campo emergente. Los conjuntos de datos y el código están disponibles públicamente en https://github.com/OpenGVLab/RIVER.

English

The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.

RIVER: Un Punto de Referencia de Interacción en Tiempo Real para Modelos de Lenguaje Grandes de Video

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Resumen

Support