ChatPaper.aiChatPaper

Ripensare il ragionamento a catena di pensieri per i video

Rethinking Chain-of-Thought Reasoning for Videos

December 10, 2025
Autori: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI

Abstract

Il ragionamento a catena del pensiero (CoT) ha avuto grande successo nel risolvere compiti complessi nell'elaborazione del linguaggio naturale, e i recenti modelli linguistici multimodali di grandi dimensioni (MLLM) hanno esteso questo paradigma al ragionamento video. Tuttavia, questi modelli si basano generalmente su catene di ragionamento prolungate e su un gran numero di token visivi in input. Sulla base di osservazioni empiriche del nostro studio comparativo, ipotizziamo che un ragionamento conciso combinato con un insieme ridotto di token visivi possa essere sufficiente per un efficace ragionamento video. Per valutare questa ipotesi, progettiamo e convalidiamo una struttura efficiente di post-addestramento e inferenza che potenzia la capacità di ragionamento di un MLLM video. La nostra struttura consente ai modelli di operare su token visivi compressi e generare tracce di ragionamento brevi prima di rispondere. I modelli risultanti raggiungono una sostanziale miglioramento nell'efficienza inferenziale, offrono prestazioni competitive su diversi benchmark ed evitano la dipendenza da annotazioni CoT manuali o da messa a punto supervisionata. Complessivamente, i nostri risultati suggeriscono che un ragionamento CoT lungo e simile a quello umano potrebbe non essere necessario per il ragionamento video generale, e che un ragionamento conciso può essere sia efficace che efficiente. Il nostro codice sarà rilasciato su https://github.com/LaVi-Lab/Rethink_CoT_Video.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.
PDF152December 13, 2025