ChatPaper.aiChatPaper

Pensare con il video: la generazione video come paradigma promettente per il ragionamento multimodale

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

November 6, 2025
Autori: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI

Abstract

Il paradigma "Pensare con il Testo" e "Pensare con le Immagini" migliora significativamente le capacità di ragionamento dei Large Language Model (LLM) e dei Vision Language Model (VLM). Tuttavia, questi paradigmi presentano limitazioni intrinseche: (1) Le immagini catturano solo singoli momenti e non riescono a rappresentare processi dinamici o cambiamenti continui; (2) La separazione tra testo e visione come modalità distinte ostacola una comprensione e generazione multimodale unificata. Per superare queste limitazioni, introduciamo "Pensare con il Video", un nuovo paradigma che sfrutta modelli di generazione video, come Sora-2, per integrare il ragionamento visivo e testuale in un framework temporale unificato. Per supportare questa esplorazione, abbiamo sviluppato il Video Thinking Benchmark (VideoThinkBench). VideoThinkBench comprende due categorie di task: (1) task centrati sulla visione (ad es. Rompicapi Visivi), e (2) task centrati sul testo (ad es. sottoinsiemi di GSM8K, MMMU). La nostra valutazione stabilisce Sora-2 come un abile motore di ragionamento. Sui task centrati sulla visione, Sora-2 è generalmente comparabile ai VLM all'avanguardia (SOTA) e addirittura li supera in diversi task, come i Giochi di Osservazione. Sui task centrati sul testo, Sora-2 raggiunge una precisione del 92% su MATH e del 75.53% su MMMU. Inoltre, analizziamo sistematicamente l'origine di queste abilità. Troviamo anche che l'auto-consistenza e l'apprendimento in-context possono migliorare le prestazioni di Sora-2. In sintesi, i nostri risultati dimostrano che il modello di generazione video è il potenziale modello unificato per la comprensione e generazione multimodale, posizionando il "pensare con il video" come un paradigma unificato di ragionamento multimodale.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly improve the reasoning ability of large language models (LLMs) and Vision Language Models (VLMs). However, these paradigms have inherent limitations. (1) Images capture only single moments and fail to represent dynamic processes or continuous changes, and (2) The separation of text and vision as distinct modalities, hindering unified multimodal understanding and generation. To overcome these limitations, we introduce "Thinking with Video", a new paradigm that leverages video generation models, such as Sora-2, to bridge visual and textual reasoning in a unified temporal framework. To support this exploration, we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks, Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU. Furthermore, we systematically analyse the source of these abilities. We also find that self-consistency and in-context learning can improve Sora-2's performance. In summary, our findings demonstrate that the video generation model is the potential unified multimodal understanding and generation model, positions "thinking with video" as a unified multimodal reasoning paradigm.
PDF2074December 2, 2025