MilliVid: Hierarchische Latente zur Langzeitkonsistenz in der Videogenerierung

Zusammenfassung

Videogenerative Modelle sind zunehmend leistungsfähiger geworden, doch die langreichweitige Konsistenz bleibt schwer zu erreichen, da selbst einige Dutzend Frames unpraktisch lange Transformer-Sequenzlängen erfordern. Wir zeigen, dass dieses Problem durch die Erzeugung von Videos mittels eines Coarse-to-Fine-Rollouts in einem mehrskaligen Token-Raum gemildert werden kann. Unser Ansatz ist einfach: Zunächst trainieren wir einen Autoencoder vortrainieren, der jedes Frame in eine Hierarchie von Tokens komprimiert, wobei die Ebenen von der typischen latenten Auflösung bis zu nur einer Handvoll Tokens pro Frame reichen. Die gröbsten Ebenen erfassen die wichtigsten Informationen, wie Szenenlayout und Semantik, während feinere Ebenen hochfrequente Erscheinung und Textur hinzufügen. Anschließend trainieren wir ein Videodiffusionsmodell, um diese Tokens mittels eines Coarse-to-Fine-Rollouts zu erzeugen. Durch sorgfältige Kontrolle des Detailgrads, mit dem Frames während jedes Rollout-Schritts erzeugt und als Kontext verwendet werden, können wir die langreichweitige Konsistenz in Geometrie und Objektpermanenz bewahren und gleichzeitig weniger Rechenleistung für die langreichweitige Konsistenz weniger wahrnehmungsrelevanter Details aufwenden. Wir validieren diesen Ansatz mit einem benutzerdefinierten Datensatz langer Minecraft-Videos, in denen er im Vergleich zu bestehenden Basislinien wesentlich konsistentere Rollouts erzeugt.

English

Video generative models have become increasingly powerful, but long-range consistency remains challenging to achieve because even a few dozen frames require impractically long transformer sequence lengths. We show that this issue can be mitigated by generating video using coarse-to-fine rollout within a multi-scale token space. Our approach is simple: first, we pre-train an autoencoder that compresses each frame into a hierarchy of tokens, with levels ranging from the typical latent resolution to only a handful of tokens per frame. The coarsest levels capture the most consequential information, such as scene layout and semantics, while finer levels add high-frequency appearance and texture. Then, we train a video diffusion model to generate these tokens using coarse-to-fine rollout. By carefully controlling the level of detail at which frames are generated and used as context during each rollout step, we are able to preserve long-range consistency in geometry and object permanence while spending less compute on the long-range consistency of less perceptually relevant details. We validate this approach using a custom dataset of long Minecraft videos, where it produces substantially more consistent rollouts compared to existing baselines.