Penser avec la vidéo : la génération vidéo comme paradigme prometteur de raisonnement multimodal
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
papers.authors: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
papers.abstract
Le paradigme « Penser avec le texte » et « Penser avec les images » améliore significativement les capacités de raisonnement des grands modèles de langage (LLM) et des modèles de vision et langage (VLM). Cependant, ces paradigmes présentent des limitations inhérentes. (1) Les images ne capturent que des instants uniques et ne parviennent pas à représenter des processus dynamiques ou des changements continus, et (2) La séparation du texte et de la vision en modalités distinctes entrave une compréhension et une génération multimodales unifiées. Pour surmonter ces limitations, nous introduisons « Penser avec la vidéo », un nouveau paradigme qui exploite les modèles de génération vidéo, tels que Sora-2, pour relier le raisonnement visuel et textuel dans un cadre temporel unifié. Pour soutenir cette exploration, nous avons développé le Benchmark de Pensée Vidéo (VideoThinkBench). VideoThinkBench englobe deux catégories de tâches : (1) les tâches centrées sur la vision (par exemple, les puzzles d'observation visuelle), et (2) les tâches centrées sur le texte (par exemple, des sous-ensembles de GSM8K, MMMU). Notre évaluation établit Sora-2 comme un raisonneur compétent. Sur les tâches centrées sur la vision, Sora-2 est généralement comparable aux VLM de pointe (SOTA), et les dépasse même sur plusieurs tâches, comme les jeux d'observation visuelle. Sur les tâches centrées sur le texte, Sora-2 atteint une précision de 92 % sur MATH et de 75,53 % sur MMMU. De plus, nous analysons systématiquement l'origine de ces capacités. Nous constatons également que l'auto-cohérence et l'apprentissage en contexte peuvent améliorer les performances de Sora-2. En résumé, nos résultats démontrent que le modèle de génération vidéo est le modèle unifié potentiel pour la compréhension et la génération multimodales, positionnant la « pensée par la vidéo » comme un paradigme de raisonnement multimodal unifié.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.