OVO-Bench: ¿Qué tan lejos están tus Modelos de Lenguaje de Video de la comprensión de videos en línea del mundo real?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Autores: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Resumen
La Conciencia Temporal, la capacidad de razonar dinámicamente basada en la marca de tiempo en la que se plantea una pregunta, es la distinción clave entre los LLM de video en línea y fuera de línea. A diferencia de los modelos fuera de línea, que se basan en videos completos para un análisis estático y posterior, los modelos en línea procesan flujos de video de forma incremental y se adaptan dinámicamente a sus respuestas según la marca de tiempo en la que se plantea la pregunta. A pesar de su importancia, la conciencia temporal no ha sido evaluada adecuadamente en los benchmarks existentes. Para cubrir esta brecha, presentamos OVO-Bench (Online-VideO-Benchmark), un nuevo benchmark de video que enfatiza la importancia de las marcas de tiempo para la capacidad avanzada de comprensión de video en línea. OVO-Bench evalúa la capacidad de los LLM de video para razonar y responder a eventos que ocurren en marcas de tiempo específicas bajo tres escenarios distintos: (1) Rastreo hacia atrás: retroceder a eventos pasados para responder la pregunta. (2) Comprensión en tiempo real: comprender y responder a eventos a medida que se desarrollan en la marca de tiempo actual. (3) Respuesta activa hacia adelante: retrasar la respuesta hasta que esté disponible suficiente información futura para responder la pregunta con precisión. OVO-Bench consta de 12 tareas, con 644 videos únicos y aproximadamente 2,800 meta-anotaciones detalladas curadas por humanos con marcas de tiempo precisas. Combinamos pipelines de generación automatizada con curación humana. Con estas muestras de alta calidad, desarrollamos además un pipeline de evaluación para consultar sistemáticamente a los LLM de video a lo largo de la línea de tiempo del video. Las evaluaciones de nueve Video-LLMs revelan que, a pesar de los avances en benchmarks tradicionales, los modelos actuales tienen dificultades con la comprensión de video en línea, mostrando una brecha significativa en comparación con agentes humanos. Esperamos que OVO-Bench impulse el progreso en los LLM de video e inspire futuras investigaciones en razonamiento de video en línea. Nuestro benchmark y código están disponibles en https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary