ChatPaper.aiChatPaper

Heroverdenken van Redeneren met Gedachteketens voor Video's

Rethinking Chain-of-Thought Reasoning for Videos

December 10, 2025
Auteurs: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI

Samenvatting

Chain-of-thought (CoT)-redenering heeft grote successen geboekt bij het oplossen van complexe taken in natuurlijke taalverwerking, en recente multimodale grote taalmodellen (MLLM's) hebben dit paradigma uitgebreid naar videoredenering. Deze modellen baseren zich echter doorgaans op uitgebreide redeneerketens en een groot aantal invoer-visuele tokens. Gebaseerd op empirische observaties uit onze benchmarkstudie, veronderstellen wij dat beknopt redeneren in combinatie met een gereduceerde set visuele tokens voldoende kan zijn voor effectieve videoredenering. Om deze hypothese te evalueren, ontwerpen en valideren we een efficiënt raamwerk voor post-training en inferentie dat het redeneervermogen van een video-MLLM verbetert. Ons raamwerk stelt modellen in staat om te werken met gecomprimeerde visuele tokens en korte redeneersporen te genereren alvorens een antwoord te geven. De resulterende modellen bereiken een aanzienlijk verbeterde inferentie-efficiëntie, leveren competitieve prestaties op diverse benchmarks en vermijden afhankelijkheid van handmatige CoT-annotaties of supervised fine-tuning. Collectief suggereren onze resultaten dat lange, mensachtige CoT-redenering mogelijk niet nodig is voor algemene videoredenering, en dat beknopt redeneren zowel effectief als efficiënt kan zijn. Onze code wordt vrijgegeven op https://github.com/LaVi-Lab/Rethink_CoT_Video.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.
PDF152December 13, 2025