IV-Bench: Ein Benchmark für bildgestützte Video-Wahrnehmung und -Schlussfolgerung in multimodalen LLMs
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
Autoren: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
Zusammenfassung
Bestehende Evaluierungsrahmen für Multimodale Große Sprachmodelle (MLLMs) konzentrieren sich hauptsächlich auf Bildverständnis oder allgemeine Videoanalyseaufgaben und übersehen dabei weitgehend die bedeutende Rolle des Bildkontexts für das Videoverständnis. Um diese Lücke zu schließen, schlagen wir IV-Bench vor, den ersten umfassenden Benchmark zur Bewertung von bildgestützter Video-Wahrnehmung und -Argumentation. IV-Bench besteht aus 967 Videos, die mit 2.585 sorgfältig annotierten Bild-Text-Abfragen über 13 Aufgaben (7 Wahrnehmungs- und 6 Argumentationsaufgaben) und 5 repräsentative Kategorien verknüpft sind. Umfangreiche Bewertungen von state-of-the-art Open-Source- (z.B. InternVL2.5, Qwen2.5-VL) und Closed-Source-Modellen (z.B. GPT-4o, Gemini2-Flash und Gemini2-Pro) zeigen, dass aktuelle Modelle bei der bildgestützten Video-Wahrnehmung und -Argumentation erheblich unterperformen und lediglich eine Genauigkeit von höchstens 28,9 % erreichen. Weitere Analysen offenbaren Schlüsselfaktoren, die die Modellleistung auf IV-Bench beeinflussen, darunter Inferenzmuster, Bildanzahl und Auflösung. Darüber hinaus demonstrieren wir durch einen einfachen Ansatz zur Datensynthese, dass die Herausforderungen von IV-Bench über die bloße Anpassung des Datenformats im Trainingsprozess hinausgehen. Diese Erkenntnisse bieten insgesamt wertvolle Einblicke für zukünftige Forschungen. Unsere Codes und Daten sind unter https://github.com/multimodal-art-projection/IV-Bench veröffentlicht.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.Summary
AI-Generated Summary