IV-Bench: Un Benchmark per la Percezione e il Ragionamento Video Basati su Immagini nei Modelli Linguistici Multimodali
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
Autori: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
Abstract
I framework di valutazione esistenti per i Modelli Linguistici Multimodali di Grande Scala (MLLMs) si concentrano principalmente sul ragionamento basato su immagini o su compiti generali di comprensione video, trascurando in larga misura il ruolo significativo del contesto visivo nella comprensione video. Per colmare questa lacuna, proponiamo IV-Bench, il primo benchmark completo per valutare la Percezione e il Ragionamento Video basati su Immagini. IV-Bench è composto da 967 video associati a 2.585 query immagine-testo annotate meticolosamente, distribuite su 13 task (7 di percezione e 6 di ragionamento) e 5 categorie rappresentative. Valutazioni estensive dei migliori MLLM open-source (ad esempio, InternVL2.5, Qwen2.5-VL) e closed-source (ad esempio, GPT-4o, Gemini2-Flash e Gemini2-Pro) dimostrano che i modelli attuali hanno prestazioni significativamente inferiori nella Percezione e Ragionamento Video basati su immagini, raggiungendo al massimo un'accuratezza del 28,9%. Un'analisi più approfondita rivela i fattori chiave che influenzano le prestazioni dei modelli su IV-Bench, tra cui il modello di inferenza, il numero di frame e la risoluzione. Inoltre, attraverso un semplice approccio di sintesi dei dati, dimostriamo che le sfide di IV-Bench vanno oltre il semplice allineamento del formato dei dati nel processo di addestramento. Questi risultati forniscono collettivamente spunti preziosi per la ricerca futura. I nostri codici e dati sono disponibili su https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.