VCR-Bench: Um Framework Abrangente de Avaliação para Raciocínio em Cadeia de Pensamento em Vídeos
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
April 10, 2025
Autores: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI
Resumo
O avanço do raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) melhorou significativamente as capacidades dos grandes modelos de linguagem (LLMs) e dos grandes modelos visão-linguagem (LVLMs). No entanto, ainda falta um framework de avaliação rigoroso para o raciocínio CoT em vídeos. Os benchmarks atuais de vídeo não avaliam adequadamente o processo de raciocínio nem identificam se as falhas decorrem de deficiências nas capacidades de percepção ou de raciocínio. Portanto, introduzimos o VCR-Bench, um novo benchmark projetado para avaliar de forma abrangente as capacidades de raciocínio CoT em vídeos dos LVLMs. O VCR-Bench compreende 859 vídeos que abrangem uma variedade de conteúdos e durações, juntamente com 1.034 pares de perguntas e respostas de alta qualidade. Cada par é anotado manualmente com uma justificativa CoT passo a passo, onde cada etapa é marcada para indicar sua associação com as capacidades de percepção ou raciocínio. Além disso, projetamos sete dimensões distintas de tarefas e propomos a pontuação CoT para avaliar todo o processo CoT com base nas justificativas CoT marcadas passo a passo. Experimentos extensivos no VCR-Bench destacam limitações substanciais nos LVLMs atuais. Mesmo o modelo de melhor desempenho, o1, alcança apenas 62,8% na pontuação CoT e 56,7% de precisão, enquanto a maioria dos modelos pontua abaixo de 40%. Os experimentos mostram que a maioria dos modelos pontua menos nas etapas de percepção do que nas de raciocínio, revelando o principal gargalo dos LVLMs no processamento de informações espaço-temporais para raciocínio complexo em vídeos. Uma forte correlação positiva entre a pontuação CoT e a precisão confirma a validade do nosso framework de avaliação e reforça o papel crítico do raciocínio CoT na resolução de tarefas complexas de raciocínio em vídeos. Esperamos que o VCR-Bench sirva como um framework de avaliação padronizado e exponha as deficiências reais em tarefas complexas de raciocínio em vídeos.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly
enhanced the capabilities of large language models (LLMs) and large
vision-language models (LVLMs). However, a rigorous evaluation framework for
video CoT reasoning remains absent. Current video benchmarks fail to adequately
assess the reasoning process and expose whether failures stem from deficiencies
in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a
novel benchmark designed to comprehensively evaluate LVLMs' Video
Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos
spanning a variety of video content and durations, along with 1,034
high-quality question-answer pairs. Each pair is manually annotated with a
stepwise CoT rationale, where every step is tagged to indicate its association
with the perception or reasoning capabilities. Furthermore, we design seven
distinct task dimensions and propose the CoT score to assess the entire CoT
process based on the stepwise tagged CoT rationals. Extensive experiments on
VCR-Bench highlight substantial limitations in current LVLMs. Even the
top-performing model, o1, only achieves a 62.8% CoT score and an 56.7%
accuracy, while most models score below 40%. Experiments show most models score
lower on perception than reasoning steps, revealing LVLMs' key bottleneck in
temporal-spatial information processing for complex video reasoning. A robust
positive correlation between the CoT score and accuracy confirms the validity
of our evaluation framework and underscores the critical role of CoT reasoning
in solving complex video reasoning tasks. We hope VCR-Bench to serve as a
standardized evaluation framework and expose the actual drawbacks in complex
video reasoning task.