OVO-Bench : À quelle distance se trouvent vos LLM vidéo de la compréhension des vidéos en ligne du monde réel ?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Auteurs: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Résumé
La Conscience Temporelle, la capacité de raisonner de manière dynamique en fonction de l'horodatage au moment où une question est posée, est la distinction clé entre les LLM vidéo hors ligne et en ligne. Contrairement aux modèles hors ligne, qui se basent sur des vidéos complètes pour une analyse statique et a posteriori, les modèles en ligne traitent les flux vidéo de manière incrémentielle et adaptent dynamiquement leurs réponses en fonction de l'horodatage auquel la question est posée. Malgré son importance, la conscience temporelle n'a pas été évaluée de manière adéquate dans les benchmarks existants. Pour combler cette lacune, nous présentons OVO-Bench (Online-VideO-Benchmark), un nouveau benchmark vidéo qui met l'accent sur l'importance des horodatages pour l'évaluation des capacités avancées de compréhension vidéo en ligne. OVO-Bench évalue la capacité des LLM vidéo à raisonner et à répondre aux événements se produisant à des horodatages spécifiques dans trois scénarios distincts : (1) Traçage en arrière : remonter aux événements passés pour répondre à la question. (2) Compréhension en temps réel : comprendre et répondre aux événements au fur et à mesure qu'ils se déroulent à l'horodatage actuel. (3) Réponse active anticipée : retarder la réponse jusqu'à ce que des informations futures suffisantes soient disponibles pour répondre à la question de manière précise. OVO-Bench comprend 12 tâches, présentant 644 vidéos uniques et environ 2 800 méta-annotations fines, soigneusement sélectionnées par des humains, avec des horodatages précis. Nous combinons des pipelines de génération automatisée avec une curation humaine. Avec ces échantillons de haute qualité, nous avons développé un pipeline d'évaluation pour interroger systématiquement les LLM vidéo le long de la chronologie vidéo. Les évaluations de neuf LLM vidéo révèlent que, malgré les avancées sur les benchmarks traditionnels, les modèles actuels rencontrent des difficultés avec la compréhension vidéo en ligne, montrant un écart significatif par rapport aux agents humains. Nous espérons qu'OVO-Bench stimulera les progrès dans les LLM vidéo et inspirera de futures recherches sur le raisonnement vidéo en ligne. Notre benchmark et notre code sont accessibles sur https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary