ChatPaper.aiChatPaper

IV-Bench: Un punto de referencia para la percepción y razonamiento de video basado en imágenes en modelos de lenguaje multimodal (LLMs)

IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

April 21, 2025
Autores: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI

Resumen

Los marcos de evaluación existentes para Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) se centran principalmente en tareas de razonamiento sobre imágenes o comprensión general de videos, pasando por alto en gran medida el papel significativo del contexto de la imagen en la comprensión de videos. Para cerrar esta brecha, proponemos IV-Bench, el primer benchmark integral para evaluar la Percepción y Razonamiento de Videos Basados en Imágenes. IV-Bench consta de 967 videos emparejados con 2,585 consultas de texto-imagen meticulosamente anotadas, abarcando 13 tareas (7 de percepción y 6 de razonamiento) y 5 categorías representativas. Evaluaciones exhaustivas de MLLMs de código abierto de vanguardia (por ejemplo, InternVL2.5, Qwen2.5-VL) y de código cerrado (por ejemplo, GPT-4o, Gemini2-Flash y Gemini2-Pro) demuestran que los modelos actuales tienen un rendimiento sustancialmente inferior en Percepción y Razonamiento de videos basados en imágenes, alcanzando como máximo un 28.9% de precisión. Un análisis más profundo revela factores clave que influyen en el rendimiento de los modelos en IV-Bench, incluyendo el patrón de inferencia, el número de fotogramas y la resolución. Además, mediante un enfoque simple de síntesis de datos, demostramos que los desafíos de IV-Bench van más allá de simplemente alinear el formato de los datos en el proceso de entrenamiento. Estos hallazgos proporcionan colectivamente insights valiosos para futuras investigaciones. Nuestros códigos y datos están disponibles en https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs) primarily focus on image reasoning or general video understanding tasks, largely overlooking the significant role of image context in video comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive benchmark for evaluating Image-Grounded Video Perception and Reasoning. IV-Bench consists of 967 videos paired with 2,585 meticulously annotated image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5 representative categories. Extensive evaluations of state-of-the-art open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o, Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models substantially underperform in image-grounded video Perception and Reasoning, merely achieving at most 28.9% accuracy. Further analysis reveals key factors influencing model performance on IV-Bench, including inference pattern, frame number, and resolution. Additionally, through a simple data synthesis approach, we demonstratethe challenges of IV- Bench extend beyond merely aligning the data format in the training proecss. These findings collectively provide valuable insights for future research. Our codes and data are released in https://github.com/multimodal-art-projection/IV-Bench.

Summary

AI-Generated Summary

PDF222April 23, 2025