Denken met Video: Videogeneratie als een Veelbelovend Paradigma voor Multimodale Redenering

Samenvatting

Het paradigma van "Denken met Tekst" en "Denken met Beelden" verbetert het redeneervermogen van grote taalmodel(len) (LLM's) en visie-taalmodel(len) (VLM's) aanzienlijk. Deze paradigma's hebben echter inherente beperkingen. (1) Beelden leggen slechts enkele momenten vast en slagen er niet in dynamische processen of continue veranderingen weer te geven, en (2) De scheiding van tekst en visie als afzonderlijke modaliteiten belemmert een uniforme multimodale interpretatie en generatie. Om deze beperkingen te overwinnen, introduceren wij "Denken met Video", een nieuw paradigma dat videogeneratiemodellen, zoals Sora-2, benut om visueel en tekstueel redeneren te verbinden in een uniform temporeel kader. Om deze verkenning te ondersteunen, ontwikkelden we de Video Thinking Benchmark (VideoThinkBench). VideoThinkBench omvat twee taakcategorieën: (1) visiegerichte taken (bijv. Eyeballing Puzzles), en (2) tekstgerichte taken (bijv. subsets van GSM8K, MMMU). Onze evaluatie positioneert Sora-2 als een bekwaam redeneerder. Op visiegerichte taken is Sora-2 over het algemeen vergelijkbaar met state-of-the-art (SOTA) VLM's, en overtreft het VLM's zelfs bij verschillende taken, zoals Eyeballing Games. Op tekstgerichte taken behaalt Sora-2 een nauwkeurigheid van 92% op MATH en 75,53% op MMMU. Verder analyseren wij systematisch de bron van deze vermogens. We stellen ook vast dat self-consistency en in-context learning de prestaties van Sora-2 kunnen verbeteren. Samenvattend tonen onze bevindingen aan dat het videogeneratiemodel het potentiële uniforme multimodale interpretatie- en generatiemodel is, en positioneren "denken met video" als een uniform multimodaal redeneerparadigma.

English

"Thinking with Text" and "Thinking with Images" paradigm significantly improve the reasoning ability of large language models (LLMs) and Vision Language Models (VLMs). However, these paradigms have inherent limitations. (1) Images capture only single moments and fail to represent dynamic processes or continuous changes, and (2) The separation of text and vision as distinct modalities, hindering unified multimodal understanding and generation. To overcome these limitations, we introduce "Thinking with Video", a new paradigm that leverages video generation models, such as Sora-2, to bridge visual and textual reasoning in a unified temporal framework. To support this exploration, we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks, Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU. Furthermore, we systematically analyse the source of these abilities. We also find that self-consistency and in-context learning can improve Sora-2's performance. In summary, our findings demonstrate that the video generation model is the potential unified multimodal understanding and generation model, positions "thinking with video" as a unified multimodal reasoning paradigm.

Denken met Video: Videogeneratie als een Veelbelovend Paradigma voor Multimodale Redenering

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Samenvatting

Support