ChatPaper.aiChatPaper

Repenser le raisonnement en chaîne de pensée pour les vidéos

Rethinking Chain-of-Thought Reasoning for Videos

December 10, 2025
papers.authors: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI

papers.abstract

Le raisonnement par chaîne de pensée (CoT) a connu un grand succès pour résoudre des tâches complexes en traitement du langage naturel, et les récents modèles de langage multimodaux de grande taille (MLLM) ont étendu ce paradigme au raisonnement vidéo. Cependant, ces modèles s'appuient généralement sur des chaînes de raisonnement longues et un grand nombre de jetons visuels en entrée. Motivés par des observations empiriques de notre étude comparative, nous émettons l'hypothèse qu'un raisonnement concis combiné à un ensemble réduit de jetons visuels peut suffire à un raisonnement vidéo efficace. Pour évaluer cette hypothèse, nous concevons et validons un cadre efficace d'après-entraînement et d'inférence qui améliore la capacité de raisonnement d'un MLLM vidéo. Notre cadre permet aux modèles de fonctionner sur des jetons visuels compressés et de générer des traces de raisonnement brèves avant de répondre. Les modèles ainsi obtenus atteignent une efficacité d'inférence considérablement améliorée, offrent des performances compétitives sur divers benchmarks, et évitent toute dépendance aux annotations CoT manuelles ou au réglage fin supervisé. Collectivement, nos résultats suggèrent qu'un raisonnement CoT long, semblable à celui des humains, pourrait ne pas être nécessaire pour le raisonnement vidéo général, et qu'un raisonnement concis peut être à la fois efficace et efficient. Notre code sera publié à l'adresse https://github.com/LaVi-Lab/Rethink_CoT_Video.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.
PDF152December 13, 2025