ChatPaper.aiChatPaper

OVO-Bench : À quelle distance se trouvent vos LLM vidéo de la compréhension des vidéos en ligne du monde réel ?

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

January 9, 2025
Auteurs: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI

Résumé

La Conscience Temporelle, la capacité de raisonner de manière dynamique en fonction de l'horodatage au moment où une question est posée, est la distinction clé entre les LLM vidéo hors ligne et en ligne. Contrairement aux modèles hors ligne, qui se basent sur des vidéos complètes pour une analyse statique et a posteriori, les modèles en ligne traitent les flux vidéo de manière incrémentielle et adaptent dynamiquement leurs réponses en fonction de l'horodatage auquel la question est posée. Malgré son importance, la conscience temporelle n'a pas été évaluée de manière adéquate dans les benchmarks existants. Pour combler cette lacune, nous présentons OVO-Bench (Online-VideO-Benchmark), un nouveau benchmark vidéo qui met l'accent sur l'importance des horodatages pour l'évaluation des capacités avancées de compréhension vidéo en ligne. OVO-Bench évalue la capacité des LLM vidéo à raisonner et à répondre aux événements se produisant à des horodatages spécifiques dans trois scénarios distincts : (1) Traçage en arrière : remonter aux événements passés pour répondre à la question. (2) Compréhension en temps réel : comprendre et répondre aux événements au fur et à mesure qu'ils se déroulent à l'horodatage actuel. (3) Réponse active anticipée : retarder la réponse jusqu'à ce que des informations futures suffisantes soient disponibles pour répondre à la question de manière précise. OVO-Bench comprend 12 tâches, présentant 644 vidéos uniques et environ 2 800 méta-annotations fines, soigneusement sélectionnées par des humains, avec des horodatages précis. Nous combinons des pipelines de génération automatisée avec une curation humaine. Avec ces échantillons de haute qualité, nous avons développé un pipeline d'évaluation pour interroger systématiquement les LLM vidéo le long de la chronologie vidéo. Les évaluations de neuf LLM vidéo révèlent que, malgré les avancées sur les benchmarks traditionnels, les modèles actuels rencontrent des difficultés avec la compréhension vidéo en ligne, montrant un écart significatif par rapport aux agents humains. Nous espérons qu'OVO-Bench stimulera les progrès dans les LLM vidéo et inspirera de futures recherches sur le raisonnement vidéo en ligne. Notre benchmark et notre code sont accessibles sur https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.

Summary

AI-Generated Summary

PDF442January 13, 2025