AdaState: Zelf-evoluerende ankers voor streaming videogeneratie

Samenvatting

Autoregressieve videodiffusiemodellen genereren streaming video door opeenvolgend frames te produceren, waarbij elk chunk wordt geconditioneerd op eerder gegenereerde inhoud. Deze modellen zijn structureel verankerd aan het eerste frame: de sleutel-waarderepresentatie ervan neemt een bevoorrechte positie in in de aandachtcache en dient gedurende de generatie als primaire scenereferentie. Als de schoonste en meest foutenvrije positie in de cache trekt dit anker onevenredig veel aandacht, onderdrukt videodynamiek en vergrendelt de scènecompositie op het initiële gezichtspunt, zelfs terwijl de scène natuurlijk evolueert. Het resultaat is een temporeel ondiepe video waarin beweging, camerabeweging en scènevoortgang worden gedempt ten gunste van statische consistentie. Om dit aan te pakken, vervangen we het statische anker door een adaptieve toestand, een verborgen latent die het model bij elk chunk samen met inhoud ontruist, maar nooit rendert. In plaats van te verwijzen naar een bevroren eerste frame, genereert het model bij elke stap zijn eigen scèneanker door zowel naar de vorige toestand als de huidige inhoud te kijken, waardoor een referentie ontstaat die evolueert met de gegenereerde inhoud. In tegenstelling tot standaard videogeneratie, die een absoluut tijdsbegrip codeert, behandelt onze formulering tijd als relatief: elke generatiestap ziet dezelfde positionele structuur, ongeacht hoe ver de generatie is gevorderd, en de toestandsovergang is identiek bij elk chunk. Samen introduceren deze eigenschappen een recurrentie in het generatieproces, waarbij ontruising dient als de overgangsfunctie en de KV-cache als de drager, zonder dat er een externe module nodig is. Experimenten tonen aan dat de adaptieve toestand de videodynamiek aanzienlijk verbetert, waardoor rijkere beweging en natuurlijke scènevoortgang in gegenereerde video's mogelijk wordt.

English

Autoregressive video diffusion models generate streaming video by producing frames sequentially, conditioning each chunk on previously generated content. These models are structurally anchored to the first frame: its key-value representation occupies a privileged position in the attention cache and serves as the primary scene reference throughout generation. As the cleanest and most error-free position in the cache, this anchor draws disproportionate attention, suppressing video dynamics, and locking scene composition to the initial viewpoint even as the scene naturally evolves. The result is a temporally shallow video in which motion, camera movement, and scene progression are dampened in favor of static consistency. To address this, we replace the static anchor with an adaptive state, a hidden latent that the model denoises alongside content at every chunk but never renders. Rather than referencing a frozen first frame, the model generates its own scene anchor at each step by attending to both the previous state and the current content, producing a reference that evolves with the generated content. Unlike standard video generation, which encodes an absolute notion of time, our formulation treats time as relative: every generation step sees the same positional structure regardless of how far generation has progressed, and the state transition is identical at every chunk. Together, these properties introduce a recurrence into the generation process, where denoising serves as the transition function, and the KV cache serves as the carrier, requiring no external module. Experiments demonstrate that the adaptive state substantially improves video dynamics, enabling richer motion and natural scene progression within generated videos.