Ein Frame ist ein Token wert: Effiziente generative Weltmodellierung mit Delta-Tokens

Zusammenfassung

Die Vorhersage verschiedener zukünftiger Zustände ist eine zentrale Herausforderung in der Videoweltmodellierung. Diskriminative Weltmodelle erzeugen eine deterministische Vorhersage, die implizit über mögliche Zukünfte mittelt, während bestehende generative Weltmodelle nach wie vor rechenintensiv sind. Jüngste Arbeiten zeigen, dass die Vorhersage der Zukunft im Merkmalsraum eines Vision-Foundation-Modells (VFM) anstelle eines für Pixelrekonstruktion optimierten latenten Raums deutlich weniger Weltmodell-Parameter erfordert. Die meisten dieser Ansätze bleiben jedoch diskriminativ. In dieser Arbeit stellen wir DeltaTok vor, einen Tokenisierer, der die VFM-Merkmalsdifferenz zwischen aufeinanderfolgenden Frames in einen einzigen kontinuierlichen "Delta"-Token kodiert, und DeltaWorld, ein generatives Weltmodell, das auf diesen Tokens operiert, um effizient diverse plausible Zukünfte zu generieren. Delta-Tokens reduzieren Video von einer dreidimensionalen raumzeitlichen Darstellung auf eine eindimensionale zeitliche Sequenz, was beispielsweise eine 1.024-fache Token-Reduktion bei 512x512 Frames ergibt. Diese kompakte Darstellung ermöglicht handhabbares Multi-Hypothesen-Training, bei dem viele Zukünfte parallel generiert und nur die beste überwacht wird. Zur Inferenz führt dies zu diversen Vorhersagen in einem einzigen Vorwärtsdurchlauf. Experimente zu dichten Vorhersageaufgaben zeigen, dass DeltaWorld Zukünfte vorhersagt, die enger mit realen Ergebnissen übereinstimmen, während es über 35-mal weniger Parameter hat und 2.000-mal weniger FLOPs als bestehende generative Weltmodelle verbraucht. Code und Gewichte: https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Ein Frame ist ein Token wert: Effiziente generative Weltmodellierung mit Delta-Tokens

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Zusammenfassung

Support