AdaState : Ancres auto-évolutives pour la génération de vidéo en streaming

Résumé

Les modèles de diffusion vidéo autorégressifs génèrent une vidéo en continu en produisant des images séquentiellement, conditionnant chaque segment sur le contenu généré précédemment. Ces modèles sont structurellement ancrés à la première image : sa représentation clé-valeur occupe une position privilégiée dans le cache d'attention et sert de référence principale de la scène tout au long de la génération. En tant que position la plus propre et la plus exempte d'erreurs dans le cache, cet ancrage attire une attention disproportionnée, supprimant la dynamique vidéo et verrouillant la composition de la scène sur le point de vue initial, même lorsque la scène évolue naturellement. Le résultat est une vidéo temporellement plate dans laquelle le mouvement, le déplacement de la caméra et la progression de la scène sont atténués au profit d'une cohérence statique. Pour remédier à cela, nous remplaçons l'ancrage statique par un état adaptatif, un latent caché que le modèle débruit en même temps que le contenu à chaque segment mais qu'il ne rend jamais. Plutôt que de référencer une première image figée, le modèle génère son propre ancrage de scène à chaque étape en prêtant attention à la fois à l'état précédent et au contenu actuel, produisant une référence qui évolue avec le contenu généré. Contrairement à la génération vidéo standard, qui encode une notion absolue du temps, notre formulation traite le temps comme relatif : chaque étape de génération voit la même structure positionnelle, quelle que soit la distance parcourue dans la génération, et la transition d'état est identique à chaque segment. Ensemble, ces propriétés introduisent une récurrence dans le processus de génération, où le débruitage sert de fonction de transition et le cache KV sert de support, ne nécessitant aucun module externe. Les expériences démontrent que l'état adaptatif améliore considérablement la dynamique vidéo, permettant un mouvement plus riche et une progression naturelle de la scène dans les vidéos générées.

English

Autoregressive video diffusion models generate streaming video by producing frames sequentially, conditioning each chunk on previously generated content. These models are structurally anchored to the first frame: its key-value representation occupies a privileged position in the attention cache and serves as the primary scene reference throughout generation. As the cleanest and most error-free position in the cache, this anchor draws disproportionate attention, suppressing video dynamics, and locking scene composition to the initial viewpoint even as the scene naturally evolves. The result is a temporally shallow video in which motion, camera movement, and scene progression are dampened in favor of static consistency. To address this, we replace the static anchor with an adaptive state, a hidden latent that the model denoises alongside content at every chunk but never renders. Rather than referencing a frozen first frame, the model generates its own scene anchor at each step by attending to both the previous state and the current content, producing a reference that evolves with the generated content. Unlike standard video generation, which encodes an absolute notion of time, our formulation treats time as relative: every generation step sees the same positional structure regardless of how far generation has progressed, and the state transition is identical at every chunk. Together, these properties introduce a recurrence into the generation process, where denoising serves as the transition function, and the KV cache serves as the carrier, requiring no external module. Experiments demonstrate that the adaptive state substantially improves video dynamics, enabling richer motion and natural scene progression within generated videos.