Pensar com Vídeo: A Geração de Vídeo como um Paradigma Promissor de Raciocínio Multimodal
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
Autores: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
Resumo
O paradigma "Pensar com Texto" e "Pensar com Imagens" melhora significativamente a capacidade de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) e Modelos de Linguagem Visual (VLMs). No entanto, estes paradigmas possuem limitações inerentes. (1) As imagens capturam apenas momentos únicos e não conseguem representar processos dinâmicos ou mudanças contínuas, e (2) A separação entre texto e visão como modalidades distintas dificulta a compreensão e geração multimodal unificada. Para superar estas limitações, introduzimos o "Pensar com Vídeo", um novo paradigma que aproveita modelos de geração de vídeo, como o Sora-2, para unir o raciocínio visual e textual num quadro temporal unificado. Para apoiar esta exploração, desenvolvemos a Video Thinking Benchmark (VideoThinkBench). A VideoThinkBench abrange duas categorias de tarefas: (1) tarefas centradas na visão (ex: Quebra-Cabeças Visuais) e (2) tarefas centradas no texto (ex: subconjuntos do GSM8K, MMMU). A nossa avaliação estabelece o Sora-2 como um raciocinador competente. Nas tarefas centradas na visão, o Sora-2 é geralmente comparável aos VLMs de última geração (SOTA), e até supera os VLMs em várias tarefas, como Jogos de Percepção Visual. Nas tarefas centradas no texto, o Sora-2 atinge 92% de precisão no MATH e 75,53% de precisão no MMMU. Adicionalmente, analisamos sistematicamente a origem destas capacidades. Também descobrimos que a autoconsistência e a aprendizagem contextual podem melhorar o desempenho do Sora-2. Em resumo, as nossas descobertas demonstram que o modelo de geração de vídeo é o potencial modelo unificado de compreensão e geração multimodal, posicionando o "pensar com vídeo" como um paradigma unificado de raciocínio multimodal.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.