OVO-Bench: Hoe ver staat jouw Video-LLM's van het begrijpen van online video's in de echte wereld?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Auteurs: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Samenvatting
Temporeel Bewustzijn, het vermogen om dynamisch te redeneren op basis van het tijdstip waarop een vraag wordt gesteld, is het belangrijkste onderscheid tussen offline en online video LLM's. In tegenstelling tot offline modellen, die vertrouwen op volledige video's voor statische, post-hoc analyse, verwerken online modellen videostreams incrementeel en passen ze dynamisch hun reacties aan op basis van het tijdstip waarop de vraag wordt gesteld. Ondanks de relevantie ervan is temporeel bewustzijn nog niet adequaat geëvalueerd in bestaande benchmarks. Om deze lacune op te vullen, presenteren we OVO-Bench (Online-VideO-Benchmark), een nieuwe videobenchmark die het belang van tijdstempels benadrukt voor geavanceerde online videobegrip-capaciteitsbenchmarking. OVO-Bench evalueert het vermogen van video LLM's om te redeneren en te reageren op gebeurtenissen die zich voordoen op specifieke tijdstippen onder drie verschillende scenario's: (1) Terugwaarts traceren: terugkeren naar eerdere gebeurtenissen om de vraag te beantwoorden. (2) Real-time begrip: gebeurtenissen begrijpen en erop reageren terwijl ze zich ontvouwen op het huidige tijdstip. (3) Vooruit actief reageren: de reactie uitstellen totdat voldoende toekomstige informatie beschikbaar is om de vraag nauwkeurig te beantwoorden. OVO-Bench omvat 12 taken, met 644 unieke video's en ongeveer 2.800 fijnmazige metagegevens met precieze tijdstempels die door mensen zijn samengesteld. We combineren geautomatiseerde generatiepijplijnen met menselijke samenstelling. Met deze hoogwaardige monsters hebben we verder een evaluatiepijplijn ontwikkeld om systematisch video LLM's langs de videotijdlijn te bevragen. Evaluaties van negen Video-LLM's tonen aan dat, ondanks vooruitgang op traditionele benchmarks, huidige modellen moeite hebben met het begrijpen van online video's, wat een aanzienlijke kloof laat zien in vergelijking met menselijke agenten. We hopen dat OVO-Bench vooruitgang zal stimuleren in video LLM's en toekomstig onderzoek naar online videoredenering zal inspireren. Onze benchmark en code zijn beschikbaar op https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary