Het Ontleden van Video LLM Benchmarks: Kennis, Ruimtelijk Waarnemen, of Werkelijk Temporeel Begrip?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
May 20, 2025
Auteurs: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao
cs.AI
Samenvatting
Bestaande benchmarks voor videobegrip verwarren vaak kennisgebaseerde en puur beeldgebaseerde vragen, in plaats van het temporele redeneervermogen van een model duidelijk te isoleren, wat het cruciale aspect is dat videobegrip onderscheidt van andere modaliteiten. We identificeren twee belangrijke beperkingen die verhullen of hogere scores daadwerkelijk een beter begrip van de dynamische inhoud in video's aangeven: (1) sterke taalprioriteiten, waarbij modellen vragen kunnen beantwoorden zonder de video te bekijken; en (2) schud-invariantie, waarbij modellen vergelijkbare prestaties behouden op bepaalde vragen, zelfs wanneer videoframes tijdelijk door elkaar worden geschud. Om deze problemen te verlichten, stellen we VBenchComp voor, een geautomatiseerde pipeline die vragen categoriseert in verschillende domeinen: LLM-beantwoordbaar, Semantisch en Temporeel. Specifiek kunnen LLM-beantwoordbare vragen worden beantwoord zonder de video te bekijken; Semantische vragen blijven beantwoordbaar, zelfs wanneer de videoframes door elkaar worden geschud; en Temporele vragen vereisen begrip van de juiste temporele volgorde van frames. De overige vragen worden gelabeld als Overig. Dit maakt een gedetailleerde evaluatie mogelijk van verschillende capaciteiten van een video-LLM. Onze analyse onthult subtiele modelzwaktes die verborgen blijven door traditionele algemene scores, en we bieden inzichten en aanbevelingen voor het ontwerpen van toekomstige benchmarks die video-LLM's nauwkeuriger beoordelen.
English
Existing video understanding benchmarks often conflate knowledge-based and
purely image-based questions, rather than clearly isolating a model's temporal
reasoning ability, which is the key aspect that distinguishes video
understanding from other modalities. We identify two major limitations that
obscure whether higher scores truly indicate stronger understanding of the
dynamic content in videos: (1) strong language priors, where models can answer
questions without watching the video; and (2) shuffling invariance, where
models maintain similar performance on certain questions even when video frames
are temporally shuffled. To alleviate these issues, we propose VBenchComp, an
automated pipeline that categorizes questions into different domains:
LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions
can be answered without viewing the video; Semantic questions remain answerable
even when the video frames are shuffled; and Temporal questions require
understanding the correct temporal order of frames. The rest of the questions
are labeled as Others. This can enable fine-grained evaluation of different
capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that
are hidden by traditional overall scores, and we offer insights and
recommendations for designing future benchmarks that more accurately assess
video LLMs.