IV-Bench: Бенчмарк для восприятия и анализа видео на основе изображений в мультимодальных языковых моделях
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
Авторы: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
Аннотация
Существующие системы оценки для мультимодальных больших языковых моделей (MLLMs) в основном сосредоточены на задачах анализа изображений или общего понимания видео, практически игнорируя важную роль контекста изображения в восприятии видео. Чтобы устранить этот пробел, мы предлагаем IV-Bench — первый всеобъемлющий бенчмарк для оценки восприятия и анализа видео, основанного на изображениях. IV-Bench включает 967 видео, сопровождаемых 2 585 тщательно аннотированных текстово-изобразительных запросов, охватывающих 13 задач (7 задач восприятия и 6 задач анализа) и 5 репрезентативных категорий. Обширные оценки современных открытых (например, InternVL2.5, Qwen2.5-VL) и закрытых (например, GPT-4o, Gemini2-Flash и Gemini2-Pro) MLLMs демонстрируют, что текущие модели значительно отстают в восприятии и анализе видео, основанном на изображениях, достигая точности не более 28,9%. Дополнительный анализ выявляет ключевые факторы, влияющие на производительность моделей на IV-Bench, включая шаблон вывода, количество кадров и разрешение. Кроме того, с помощью простого подхода к синтезу данных мы показываем, что задачи IV-Bench выходят за рамки простого согласования формата данных в процессе обучения. Эти результаты в совокупности предоставляют ценные инсайты для будущих исследований. Наши коды и данные доступны по адресу https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.Summary
AI-Generated Summary