Размышление с помощью видео: генерация видео как перспективная парадигма мультимодального мышления
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
November 6, 2025
Авторы: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
cs.AI
Аннотация
Парадигмы "Мышление с текстом" и "Мышление с изображениями" значительно повышают способность к рассуждению больших языковых моделей (LLM) и визуально-языковых моделей (VLM). Однако эти парадигмы имеют inherent limitations. (1) Изображения фиксируют лишь отдельные моменты и не способны передавать динамические процессы или непрерывные изменения, и (2) Разделение текста и визуальной информации как различных модальностей препятствует унифицированному мультимодальному пониманию и генерации. Для преодоления этих ограничений мы представляем "Мышление с видео" — новую парадигму, которая использует модели генерации видео, такие как Sora-2, для объединения визуальных и текстовых рассуждений в единой временной framework. Для поддержки этого исследования мы разработали бенчмарк Video Thinking Benchmark (VideoThinkBench). VideoThinkBench охватывает две категории задач: (1) визуально-ориентированные задачи (например, головоломки на зрительное восприятие) и (2) тексто-ориентированные задачи (например, подмножества GSM8K, MMMU). Наша оценка показывает, что Sora-2 является способным инструментом рассуждений. В визуально-ориентированных задачах Sora-2 в целом сопоставима с передовыми (SOTA) VLM, и даже превосходит VLM в нескольких задачах, таких как визуальные игры. В тексто-ориентированных задачах Sora-2 достигает точности 92% на MATH и 75.53% на MMMU. Кроме того, мы систематически анализируем источник этих способностей. Мы также обнаружили, что самосогласованность и обучение в контексте могут улучшить производительность Sora-2. В заключение, наши результаты демонстрируют, что модель генерации видео является потенциально унифицированной моделью для мультимодального понимания и генерации, позиционируя "мышление с видео" как унифицированную парадигму мультимодального рассуждения.
English
"Thinking with Text" and "Thinking with Images" paradigm significantly
improve the reasoning ability of large language models (LLMs) and Vision
Language Models (VLMs). However, these paradigms have inherent limitations. (1)
Images capture only single moments and fail to represent dynamic processes or
continuous changes, and (2) The separation of text and vision as distinct
modalities, hindering unified multimodal understanding and generation. To
overcome these limitations, we introduce "Thinking with Video", a new paradigm
that leverages video generation models, such as Sora-2, to bridge visual and
textual reasoning in a unified temporal framework. To support this exploration,
we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench
encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing
Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our
evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks,
Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even
surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric
tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU.
Furthermore, we systematically analyse the source of these abilities. We also
find that self-consistency and in-context learning can improve Sora-2's
performance. In summary, our findings demonstrate that the video generation
model is the potential unified multimodal understanding and generation model,
positions "thinking with video" as a unified multimodal reasoning paradigm.