IV-Bench : Un benchmark pour la perception et le raisonnement vidéo ancrés dans l'image dans les modèles de langage multimodaux
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
Auteurs: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
Résumé
Les cadres d'évaluation existants pour les Modèles de Langage Multimodaux de Grande Taille (MLLMs) se concentrent principalement sur le raisonnement visuel ou les tâches générales de compréhension vidéo, négligeant largement le rôle significatif du contexte visuel dans la compréhension vidéo. Pour combler cette lacune, nous proposons IV-Bench, le premier benchmark complet pour évaluer la Perception et le Raisonnement Vidéo Ancré dans l'Image. IV-Bench se compose de 967 vidéos associées à 2 585 requêtes image-texte méticuleusement annotées, couvrant 13 tâches (7 tâches de perception et 6 tâches de raisonnement) et 5 catégories représentatives. Des évaluations approfondies des MLLMs open-source de pointe (par exemple, InternVL2.5, Qwen2.5-VL) et propriétaires (par exemple, GPT-4o, Gemini2-Flash et Gemini2-Pro) démontrent que les modèles actuels sous-performent considérablement dans la Perception et le Raisonnement Vidéo Ancré dans l'Image, atteignant au mieux une précision de 28,9 %. Une analyse plus poussée révèle des facteurs clés influençant la performance des modèles sur IV-Bench, notamment le schéma d'inférence, le nombre de trames et la résolution. De plus, grâce à une approche simple de synthèse de données, nous démontrons que les défis d'IV-Bench vont au-delà du simple alignement du format de données dans le processus d'entraînement. Ces résultats fournissent collectivement des insights précieux pour les recherches futures. Nos codes et données sont disponibles sur https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.Summary
AI-Generated Summary