ビデオにおける連鎖思考推論の再考
Rethinking Chain-of-Thought Reasoning for Videos
December 10, 2025
著者: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI
要旨
思考連鎖(CoT)推論は自然言語処理における複雑なタスク解決で高い成果を収めており、近年のマルチモーダル大規模言語モデル(MLLM)はこのパラダイムを映像推論に拡張してきた。しかし、これらのモデルは一般に長大な推論連鎖と大量の入力視覚トークンに依存している。我々のベンチマーク研究における実証的観察に基づき、簡潔な推論と削減された視覚トークンの組み合わせが効果的な映像推論に十分であるという仮説を立てた。この仮説を検証するため、映像MLLMの推論能力を強化する効率的な学習後処理及び推論フレームワークを設計・検証した。本フレームワークはモデルが圧縮された視覚トークンで動作し、回答前に簡潔な推論過程を生成することを可能にする。その結果、モデルは推論効率を大幅に向上させ、多様なベンチマークで競争力のある性能を発揮し、手動のCoT注釈や教師ありファインチューニングへの依存を回避した。総合的に、人間のような長いCoT推論が一般的な映像推論に必須ではないこと、そして簡潔な推論が効果的かつ効率的である可能性を示唆している。コードはhttps://github.com/LaVi-Lab/Rethink_CoT_Videoで公開予定である。
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.