Denken mit Video: Videogenerierung als vielversprechendes multimodales Denkparadigma
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
papers.authors: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
papers.abstract
Die Paradigmen "Denken mit Text" und "Denken mit Bildern" verbessern die Fähigkeit von großen Sprachmodellen (LLMs) und visuell-sprachlichen Modellen (VLMs) zum logischen Schlussfolgern erheblich. Diese Paradigmen weisen jedoch inhärente Grenzen auf: (1) Bilder erfassen nur einzelne Momente und können dynamische Prozesse oder kontinuierliche Veränderungen nicht abbilden, und (2) die Trennung von Text und Vision als distinkte Modalitäten behindert ein einheitliches multimodales Verständnis und eine einheitliche Generierung. Um diese Grenzen zu überwinden, führen wir "Denken mit Video" ein – ein neues Paradigma, das Videogenerierungsmodelle wie Sora-2 nutzt, um visuelles und textuelles Schlussfolgern in einem einheitlichen zeitlichen Rahmen zu verbinden. Zur Unterstützung dieser Forschung haben wir den Video Thinking Benchmark (VideoThinkBench) entwickelt. VideoThinkBench umfasst zwei Aufgabenkategorien: (1) visuell-zentrierte Aufgaben (z.B. Eyeballing Puzzles) und (2) text-zentrierte Aufgaben (z.B. Teilmengen von GSM8K, MMMU). Unsere Evaluation zeigt, dass Sora-2 ein leistungsfähiges Modell für logisches Schlussfolgern ist. Bei visuell-zentrierten Aufgaben ist Sora-2 generell mit modernsten VLMs vergleichbar und übertrifft diese sogar bei mehreren Aufgaben, wie z.B. Eyeballing Games. Bei text-zentrierten Aufgaben erzielt Sora-2 eine Genauigkeit von 92 % auf MATH und 75,53 % auf MMMU. Darüber hinaus analysieren wir systematisch die Ursprünge dieser Fähigkeiten. Wir stellen ebenfalls fest, dass Selbstkonsistenz und In-Context-Learning die Leistung von Sora-2 verbessern können. Zusammenfassend zeigen unsere Ergebnisse, dass das Videogenerierungsmodell das potenzielle einheitliche multimodale Verständnis- und Generierungsmodell ist, und positionieren "Denken mit Video" als einheitliches multimodales Schlussfolgerungsparadigma.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.