Repensando el Razonamiento de Cadena de Pensamiento para Videos
Rethinking Chain-of-Thought Reasoning for Videos
December 10, 2025
Autores: Yiwu Zhong, Zi-Yuan Hu, Yin Li, Liwei Wang
cs.AI
Resumen
El razonamiento de cadena de pensamiento (CoT) ha tenido gran éxito en la resolución de tareas complejas en el procesamiento del lenguaje natural, y los modelos de lenguaje grandes multimodales (MLLM) recientes han extendido este paradigma al razonamiento en video. Sin embargo, estos modelos generalmente se basan en cadenas de razonamiento extensas y un gran número de tokens visuales de entrada. Motivados por observaciones empíricas de nuestro estudio de referencia, planteamos la hipótesis de que un razonamiento conciso combinado con un conjunto reducido de tokens visuales puede ser suficiente para un razonamiento en video efectivo. Para evaluar esta hipótesis, diseñamos y validamos un marco eficiente de post-entrenamiento e inferencia que mejora la capacidad de razonamiento de un MLLM de video. Nuestro marco permite a los modelos operar con tokens visuales comprimidos y generar trazas de razonamiento breves antes de responder. Los modelos resultantes logran una eficiencia de inferencia sustancialmente mejorada, ofrecen un rendimiento competitivo en diversos benchmarks y evitan la dependencia de anotaciones CoT manuales o ajuste supervisado. Colectivamente, nuestros resultados sugieren que el razonamiento CoT extenso, similar al humano, puede no ser necesario para el razonamiento general en video, y que el razonamiento conciso puede ser tanto efectivo como eficiente. Nuestro código se publicará en https://github.com/LaVi-Lab/Rethink_CoT_Video.
English
Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.