Переосмысление цепочек рассуждений для видео
Rethinking Chain-of-Thought Reasoning for Videos
December 10, 2025
Авторы: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI
Аннотация
Цепочка рассуждений (CoT) доказала свою высокую эффективность при решении сложных задач в обработке естественного языка, а современные мультимодальные большие языковые модели (MLLM) распространили этот подход на рассуждения в видеообласти. Однако такие модели обычно опираются на пространные цепочки рассуждений и большое количество входных визуальных токенов. Основываясь на эмпирических наблюдениях нашего сравнительного исследования, мы выдвигаем гипотезу, что для эффективного видеоанализа может быть достаточно лаконичных рассуждений в сочетании с сокращенным набором визуальных токенов. Для проверки данной гипотезы мы разрабатываем и валидируем эффективную框架 пост-обучения и вывода, которая усиливает способность видео-MLLM к рассуждениям. Наша框架 позволяет моделям работать со сжатыми визуальными токенами и генерировать краткие траектории рассуждений перед формированием ответа. Получившиеся модели демонстрируют существенное улучшение эффективности вывода, показывают конкурентоспособные результаты на различных бенчмарках и не требуют ручной разметки CoT или обучения с учителем. В совокупности наши результаты свидетельствуют, что длинные, подобные человеческим, рассуждения CoT могут быть не обязательны для общего видеоанализа, а лаконичные рассуждения могут быть одновременно эффективными и экономичными. Наш код будет доступен по адресу https://github.com/LaVi-Lab/Rethink_CoT_Video.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.