ChatPaper.aiChatPaper

IV-Bench: Um Benchmark para Percepção e Raciocínio em Vídeos Baseados em Imagens em LLMs Multimodais

IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

April 21, 2025
Autores: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI

Resumo

Os frameworks de avaliação existentes para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) concentram-se principalmente em tarefas de raciocínio com imagens ou compreensão geral de vídeos, negligenciando em grande parte o papel significativo do contexto da imagem na compreensão de vídeos. Para preencher essa lacuna, propomos o IV-Bench, o primeiro benchmark abrangente para avaliar a Percepção e o Raciocínio em Vídeos com Base em Imagens. O IV-Bench consiste em 967 vídeos emparelhados com 2.585 consultas imagem-texto meticulosamente anotadas, abrangendo 13 tarefas (7 de percepção e 6 de raciocínio) e 5 categorias representativas. Avaliações extensas de MLLMs de código aberto de ponta (por exemplo, InternVL2.5, Qwen2.5-VL) e de código fechado (por exemplo, GPT-4o, Gemini2-Flash e Gemini2-Pro) demonstram que os modelos atuais têm um desempenho substancialmente inferior em Percepção e Raciocínio em vídeos com base em imagens, alcançando no máximo 28,9% de precisão. Uma análise mais aprofundada revela fatores-chave que influenciam o desempenho dos modelos no IV-Bench, incluindo padrão de inferência, número de quadros e resolução. Além disso, por meio de uma abordagem simples de síntese de dados, demonstramos que os desafios do IV-Bench vão além do mero alinhamento do formato dos dados no processo de treinamento. Essas descobertas fornecem coletivamente insights valiosos para pesquisas futuras. Nossos códigos e dados estão disponíveis em https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs) primarily focus on image reasoning or general video understanding tasks, largely overlooking the significant role of image context in video comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive benchmark for evaluating Image-Grounded Video Perception and Reasoning. IV-Bench consists of 967 videos paired with 2,585 meticulously annotated image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5 representative categories. Extensive evaluations of state-of-the-art open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o, Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models substantially underperform in image-grounded video Perception and Reasoning, merely achieving at most 28.9% accuracy. Further analysis reveals key factors influencing model performance on IV-Bench, including inference pattern, frame number, and resolution. Additionally, through a simple data synthesis approach, we demonstratethe challenges of IV- Bench extend beyond merely aligning the data format in the training proecss. These findings collectively provide valuable insights for future research. Our codes and data are released in https://github.com/multimodal-art-projection/IV-Bench.

Summary

AI-Generated Summary

PDF222April 23, 2025