Desmitificando el razonamiento en vídeo

Resumen

Los recientes avances en generación de vídeo han revelado un fenómeno inesperado: los modelos de vídeo basados en difusión exhiben capacidades de razonamiento no triviales. Trabajos previos atribuyen esto a un mecanismo de Cadena-de-Fotogramas (CoF), donde se asume que el razonamiento se desarrolla secuencialmente a través de los fotogramas del vídeo. En este trabajo, cuestionamos esta suposición y descubrimos un mecanismo fundamentalmente diferente. Demostramos que el razonamiento en los modelos de vídeo surge principalmente a lo largo de los pasos de desruido de la difusión. Mediante análisis cualitativos y experimentos de sondeo dirigidos, encontramos que los modelos exploran múltiples soluciones candidatas en los primeros pasos de desruido y convergen progresivamente hacia una respuesta final, un proceso que denominamos Cadena-de-Pasos (CoS). Más allá de este mecanismo central, identificamos varios comportamientos de razonamiento emergentes críticos para el rendimiento del modelo: (1) memoria de trabajo, que permite la referencia persistente; (2) autocorrección y mejora, que permite recuperarse de soluciones intermedias incorrectas; y (3) percepción antes que acción, donde los pasos iniciales establecen una base semántica y los pasos posteriores realizan manipulaciones estructuradas. Durante un paso de difusión, descubrimos además una especialización funcional auto-evolucionada dentro de los Transformadores de Difusión, donde las capas iniciales codifican estructura perceptual densa, las capas medias ejecutan el razonamiento y las capas posteriores consolidan las representaciones latentes. Motivados por estas observaciones, presentamos una sencilla estrategia libre de entrenamiento como prueba de concepto, demostrando cómo se puede mejorar el razonamiento mediante el ensamblaje de trayectorias latentes de modelos idénticos con diferentes semillas aleatorias. En general, nuestro trabajo proporciona una comprensión sistemática de cómo emerge el razonamiento en los modelos de generación de vídeo, ofreciendo una base para guiar futuras investigaciones hacia un mejor aprovechamiento de la dinámica de razonamiento inherente de los modelos de vídeo como un nuevo sustrato para la inteligencia.

English

Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.

Desmitificando el razonamiento en vídeo

Demystifing Video Reasoning

Resumen

Support