Разоблачая принципы видеорассуждений

Аннотация

Последние достижения в области генерации видео выявили неожиданный феномен: диффузионные видео-модели демонстрируют нетривиальные способности к рассуждению. Предыдущие работы объясняют это механизмом Цепочки Кадров (Chain-of-Frames, CoF), в котором предполагается, что рассуждение разворачивается последовательно по кадрам видео. В данной работе мы оспариваем это предположение и обнаруживаем принципиально иной механизм. Мы показываем, что рассуждение в видео-моделях возникает в основном вдоль шагов денойзинга диффузии. Благодаря качественному анализу и целенаправленным пробирующим экспериментам мы обнаруживаем, что модели исследуют несколько кандидатных решений на ранних шагах денойзинга и постепенно сходятся к окончательному ответу — процесс, который мы называем Цепочкой Шагов (Chain-of-Steps, CoS). Помимо этого основного механизма, мы идентифицируем несколько эмерджентных поведений рассуждения, критически важных для производительности модели: (1) рабочую память, обеспечивающую постоянную ссылку; (2) самокоррекцию и улучшение, позволяющие исправлять некорректные промежуточные решения; и (3) восприятие перед действием, когда на ранних шагах устанавливается семантическое основание, а на поздних шагах выполняется структурированное манипулирование. В рамках одного шага диффузии мы также обнаруживаем само-развившуюся функциональную специализацию внутри Diffusion Transformers: ранние слои кодируют плотную перцептивную структуру, средние слои выполняют рассуждение, а поздние слои консолидируют латентные представления. Мотивированные этими инсайтами, мы представляем простую стратегию без обучения в качестве доказательства концепции, демонстрируя, как можно улучшить рассуждение путем ансамблирования латентных траекторий из идентичных моделей с разными случайными сидами. В целом, наша работа дает систематическое понимание того, как рассуждение возникает в моделях генерации видео, предлагая основу для направления будущих исследований в сторону лучшего использования присущей видео-моделям динамики рассуждения как нового субстрата для интеллекта.

English

Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.

Разоблачая принципы видеорассуждений

Demystifing Video Reasoning

Аннотация

Support