ChatPaper.aiChatPaper

Umdenken bei Chain-of-Thought Reasoning für Videos

Rethinking Chain-of-Thought Reasoning for Videos

December 10, 2025
papers.authors: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI

papers.abstract

Chain-of-Thought (CoT)-Reasoning hat sich bei der Lösung komplexer Aufgaben im Bereich der natürlichen Sprachverarbeitung als äußerst erfolgreich erwiesen, und neuere multimodale Large Language Models (MLLMs) haben dieses Paradigma auf das Video-Reasoning ausgeweitet. Allerdings basieren diese Modelle typischerweise auf langen Reasoning-Ketten und einer großen Anzahl von visuellen Eingabe-Tokens. Motiviert durch empirische Beobachtungen aus unserer Benchmark-Studie stellen wir die Hypothese auf, dass prägnantes Reasoning in Kombination mit einer reduzierten Menge an visuellen Tokens für effektives Video-Reasoning ausreichen könnte. Um diese Hypothese zu evaluieren, entwerfen und validieren wir ein effizientes Post-Training- und Inferenz-Framework, das die Reasoning-Fähigkeit eines Video-MLLMs verbessert. Unser Framework ermöglicht es Modellen, mit komprimierten visuellen Tokens zu operieren und vor der Antwortgebung kurze Reasoning-Spuren zu erzeugen. Die resultierenden Modelle erreichen eine erheblich verbesserte Inferenzeffizienz, liefern wettbewerbsfähige Leistung über diverse Benchmarks hinweg und vermeiden die Abhängigkeit von manuellen CoT-Annotationen oder supervised Fine-Tuning. Zusammengenommen deuten unsere Ergebnisse darauf hin, dass langes, menschenähnliches CoT-Reasoning für allgemeines Video-Reasoning möglicherweise nicht notwendig ist und dass prägnantes Reasoning sowohl effektiv als auch effizient sein kann. Unser Code wird unter https://github.com/LaVi-Lab/Rethink_CoT_Video veröffentlicht.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.
PDF152December 13, 2025