VCR-Bench: Комплексная система оценки для видео-рассуждений по цепочке мыслей

Аннотация

Развитие метода цепочки рассуждений (Chain-of-Thought, CoT) значительно расширило возможности крупных языковых моделей (LLM) и крупных моделей, работающих с визуальными и текстовыми данными (LVLM). Однако строгая система оценки для применения CoT в видеоанализе до сих пор отсутствует. Современные тестовые наборы для видео не позволяют адекватно оценить процесс рассуждений и выявить, связаны ли ошибки с недостатками в восприятии или в способности к логическому мышлению. В связи с этим мы представляем VCR-Bench — новый тестовый набор, разработанный для всесторонней оценки способностей LVLM к цепочке рассуждений при работе с видео. VCR-Bench включает 859 видеороликов, охватывающих разнообразный контент и продолжительность, а также 1034 высококачественных пары вопрос-ответ. Каждая пара вручную аннотирована пошаговой цепочкой рассуждений, где каждый шаг помечен для указания его связи с восприятием или логическим мышлением. Кроме того, мы разработали семь различных задач и предложили показатель CoT для оценки всего процесса рассуждений на основе пошагово аннотированных цепочек. Масштабные эксперименты на VCR-Bench выявили существенные ограничения современных LVLM. Даже лучшая модель, o1, достигает лишь 62,8% по показателю CoT и 56,7% точности, в то время как большинство моделей показывают результат ниже 40%. Эксперименты демонстрируют, что большинство моделей хуже справляются с шагами восприятия, чем с шагами рассуждений, что указывает на ключевое слабое место LVLM в обработке временно-пространственной информации для сложного видеоанализа. Сильная положительная корреляция между показателем CoT и точностью подтверждает валидность нашей системы оценки и подчеркивает критическую роль цепочки рассуждений в решении сложных задач видеоанализа. Мы надеемся, что VCR-Bench станет стандартизированной системой оценки и поможет выявить реальные недостатки в решении сложных задач видеоанализа.

English

The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs' Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs' key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.

VCR-Bench: Комплексная система оценки для видео-рассуждений по цепочке мыслей

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

Аннотация

Support