Pensar con video: La generación de video como un paradigma prometedor de razonamiento multimodal
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
Autores: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
Resumen
El paradigma de "Pensar con Texto" y "Pensar con Imágenes" mejora significativamente la capacidad de razonamiento de los Modelos de Lenguaje Grandes (LLM) y los Modelos de Lenguaje Visual (VLM). Sin embargo, estos paradigmas presentan limitaciones inherentes. (1) Las imágenes capturan solo momentos únicos y no logran representar procesos dinámicos o cambios continuos, y (2) La separación del texto y la visión como modalidades distintas obstaculiza la comprensión y generación multimodal unificada. Para superar estas limitaciones, presentamos "Pensar con Video", un nuevo paradigma que aprovecha los modelos de generación de video, como Sora-2, para unir el razonamiento visual y textual en un marco temporal unificado. Para respaldar esta exploración, desarrollamos el Benchmark de Pensamiento de Video (VideoThinkBench). VideoThinkBench abarca dos categorías de tareas: (1) tareas centradas en la visión (por ejemplo, Rompecabezas Visuales), y (2) tareas centradas en el texto (por ejemplo, subconjuntos de GSM8K, MMMU). Nuestra evaluación establece a Sora-2 como un razonador competente. En las tareas centradas en la visión, Sora-2 es generalmente comparable a los VLM de vanguardia (SOTA), e incluso supera a los VLM en varias tareas, como los Juegos de Agudeza Visual. En las tareas centradas en el texto, Sora-2 alcanza un 92% de precisión en MATH y un 75.53% de precisión en MMMU. Además, analizamos sistemáticamente el origen de estas capacidades. También encontramos que la auto-consistencia y el aprendizaje en contexto pueden mejorar el rendimiento de Sora-2. En resumen, nuestros hallazgos demuestran que el modelo de generación de video es el potencial modelo unificado de comprensión y generación multimodal, posicionando el "pensar con video" como un paradigma unificado de razonamiento multimodal.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.