Desvendando os Benchmarks de Video LLMs: Conhecimento, Percepção Espacial ou Verdadeiro Entendimento Temporal?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
May 20, 2025
Autores: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao
cs.AI
Resumo
Os benchmarks existentes para compreensão de vídeo frequentemente misturam perguntas baseadas em conhecimento e perguntas puramente baseadas em imagem, em vez de isolar claramente a capacidade de raciocínio temporal de um modelo, que é o aspecto fundamental que distingue a compreensão de vídeo de outras modalidades. Identificamos duas grandes limitações que obscurecem se pontuações mais altas realmente indicam uma compreensão mais forte do conteúdo dinâmico em vídeos: (1) fortes vieses linguísticos, onde os modelos podem responder perguntas sem assistir ao vídeo; e (2) invariância à permutação, onde os modelos mantêm desempenho semelhante em certas perguntas mesmo quando os frames do vídeo são temporalmente embaralhados. Para mitigar esses problemas, propomos o VBenchComp, um pipeline automatizado que categoriza as perguntas em diferentes domínios: LLM-Answerable (Respondíveis por LLM), Semânticas e Temporais. Especificamente, perguntas LLM-Answerable podem ser respondidas sem visualizar o vídeo; perguntas Semânticas permanecem respondíveis mesmo quando os frames do vídeo são embaralhados; e perguntas Temporais exigem a compreensão da ordem temporal correta dos frames. As demais perguntas são rotuladas como Outras. Isso pode permitir uma avaliação refinada das diferentes capacidades de um LLM de vídeo. Nossa análise revela nuances de fraquezas dos modelos que são ocultadas pelas pontuações gerais tradicionais, e oferecemos insights e recomendações para projetar benchmarks futuros que avaliem com mais precisão os LLMs de vídeo.
English
Existing video understanding benchmarks often conflate knowledge-based and
purely image-based questions, rather than clearly isolating a model's temporal
reasoning ability, which is the key aspect that distinguishes video
understanding from other modalities. We identify two major limitations that
obscure whether higher scores truly indicate stronger understanding of the
dynamic content in videos: (1) strong language priors, where models can answer
questions without watching the video; and (2) shuffling invariance, where
models maintain similar performance on certain questions even when video frames
are temporally shuffled. To alleviate these issues, we propose VBenchComp, an
automated pipeline that categorizes questions into different domains:
LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions
can be answered without viewing the video; Semantic questions remain answerable
even when the video frames are shuffled; and Temporal questions require
understanding the correct temporal order of frames. The rest of the questions
are labeled as Others. This can enable fine-grained evaluation of different
capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that
are hidden by traditional overall scores, and we offer insights and
recommendations for designing future benchmarks that more accurately assess
video LLMs.