Denken met Video: Videogeneratie als een Veelbelovend Paradigma voor Multimodale Redenering
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
Auteurs: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
Samenvatting
Het paradigma van "Denken met Tekst" en "Denken met Beelden" verbetert het redeneervermogen van grote taalmodel(len) (LLM's) en visie-taalmodel(len) (VLM's) aanzienlijk. Deze paradigma's hebben echter inherente beperkingen. (1) Beelden leggen slechts enkele momenten vast en slagen er niet in dynamische processen of continue veranderingen weer te geven, en (2) De scheiding van tekst en visie als afzonderlijke modaliteiten belemmert een uniforme multimodale interpretatie en generatie. Om deze beperkingen te overwinnen, introduceren wij "Denken met Video", een nieuw paradigma dat videogeneratiemodellen, zoals Sora-2, benut om visueel en tekstueel redeneren te verbinden in een uniform temporeel kader. Om deze verkenning te ondersteunen, ontwikkelden we de Video Thinking Benchmark (VideoThinkBench). VideoThinkBench omvat twee taakcategorieën: (1) visiegerichte taken (bijv. Eyeballing Puzzles), en (2) tekstgerichte taken (bijv. subsets van GSM8K, MMMU). Onze evaluatie positioneert Sora-2 als een bekwaam redeneerder. Op visiegerichte taken is Sora-2 over het algemeen vergelijkbaar met state-of-the-art (SOTA) VLM's, en overtreft het VLM's zelfs bij verschillende taken, zoals Eyeballing Games. Op tekstgerichte taken behaalt Sora-2 een nauwkeurigheid van 92% op MATH en 75,53% op MMMU. Verder analyseren wij systematisch de bron van deze vermogens. We stellen ook vast dat self-consistency en in-context learning de prestaties van Sora-2 kunnen verbeteren. Samenvattend tonen onze bevindingen aan dat het videogeneratiemodel het potentiële uniforme multimodale interpretatie- en generatiemodel is, en positioneren "denken met video" als een uniform multimodaal redeneerparadigma.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.