비디오를 위한 사고 연쇄 추론 재고하기
Rethinking Chain-of-Thought Reasoning for Videos
December 10, 2025
저자: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI
초록
체인 오브 쏘트(CoT) 추론은 자연어 처리 분야의 복잡한 과제 해결에 큰 성공을 거두었으며, 최근의 다중 모달 대규모 언어 모델(MLLM)들은 이러한 패러다임을 비디오 추론으로 확장하였습니다. 그러나 이러한 모델들은 일반적으로 긴 추론 체인과 다수의 시각적 입력 토큰에 의존합니다. 본 연구의 벤치마크 분석을 통해 얻은 실증적 관찰에 기반하여, 우리는 간결한 추론과 축소된 시각 토큰 집합의 결합이 효과적인 비디오 추론에 충분할 수 있다는 가설을 세웁니다. 이 가설을 검증하기 위해, 비디오 MLLM의 추론 능력을 향상시키는 효율적인 사후 학습 및 추론 프레임워크를 설계하고 검증합니다. 우리의 프레임워크는 모델이 압축된 시각 토큰으로 동작하고 답변 전에 간략한 추론 과정을 생성하도록 합니다. 그 결과, 해당 모델들은 추론 효율성이 크게 개봉되었으며, 다양한 벤치마크에서 경쟁력 있는 성능을 보였고, 수동 CoT 주석이나 지도 미세 조정에 대한 의존성을 피했습니다. 종합적으로, 우리의 결과는 인간과 유사한 긴 CoT 추론이 일반적인 비디오 추론에 필수적이지 않을 수 있으며, 간결한 추론이 효과적이고 효율적일 수 있음을 시사합니다. 우리의 코드는 https://github.com/LaVi-Lab/Rethink_CoT_Video에서 공개될 예정입니다.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.