Repensando o Raciocínio em Cadeia de Pensamento para Vídeos

Resumo

A razão de cadeia de pensamento (CoT) tem sido extremamente bem-sucedida na resolução de tarefas complexas no processamento de linguagem natural, e os recentes modelos de linguagem multimodal (MLLMs) estenderam este paradigma para o raciocínio em vídeo. No entanto, estes modelos normalmente baseiam-se em cadeias de raciocínio longas e num grande número de *tokens* visuais de entrada. Motivados por observações empíricas do nosso estudo de referência, formulamos a hipótese de que um raciocínio conciso, combinado com um conjunto reduzido de *tokens* visuais, pode ser suficiente para um raciocínio em vídeo eficaz. Para avaliar esta hipótese, concebemos e validamos uma estrutura eficiente de pós-treinamento e inferência que melhora a capacidade de raciocínio de um MLLM de vídeo. A nossa estrutura permite que os modelos operem em *tokens* visuais comprimidos e gerem traços de raciocínio breves antes de responder. Os modelos resultantes alcançam uma eficiência de inferência substancialmente melhorada, oferecem um desempenho competitivo em diversos benchmarks e evitam a dependência de anotações CoT manuais ou de afinação supervisionada. Coletivamente, os nossos resultados sugerem que um raciocínio CoT longo, semelhante ao humano, pode não ser necessário para o raciocínio geral em vídeo, e que o raciocínio conciso pode ser simultaneamente eficaz e eficiente. O nosso código será disponibilizado em https://github.com/LaVi-Lab/Rethink_CoT_Video.

English

Chain-of-thought (CoT) reasoning has been highly successful in solving complex tasks in natural language processing, and recent multimodal large language models (MLLMs) have extended this paradigm to video reasoning. However, these models typically build on lengthy reasoning chains and large numbers of input visual tokens. Motivated by empirical observations from our benchmark study, we hypothesize that concise reasoning combined with a reduced set of visual tokens can be sufficient for effective video reasoning. To evaluate this hypothesis, we design and validate an efficient post-training and inference framework that enhances a video MLLM's reasoning capability. Our framework enables models to operate on compressed visual tokens and generate brief reasoning traces prior to answering. The resulting models achieve substantially improved inference efficiency, deliver competitive performance across diverse benchmarks, and avoid reliance on manual CoT annotations or supervised fine-tuning. Collectively, our results suggest that long, human-like CoT reasoning may not be necessary for general video reasoning, and that concise reasoning can be both effective and efficient. Our code will be released at https://github.com/LaVi-Lab/Rethink_CoT_Video.

Repensando o Raciocínio em Cadeia de Pensamento para Vídeos

Rethinking Chain-of-Thought Reasoning for Videos

Resumo

Support