Een Frame is Eén Token Waard: Efficiënte Generatieve Wereldmodellering met Delta-Tokens

Samenvatting

Het anticiperen op diverse toekomstige toestanden is een centrale uitdaging in videowereldmodellering. Discriminatieve wereldmodellen produceren een deterministische voorspelling die impliciet gemiddelde over mogelijke toekomsten, terwijl bestaande generatieve wereldmodellen computationeel duur blijven. Recent onderzoek toont aan dat het voorspellen van de toekomst in de kenmerkruimte van een visie-foundationmodel (VFM), in plaats van een latente ruimte geoptimaliseerd voor pixelreconstructie, aanzienlijk minder wereldmodelparameters vereist. De meeste van dergelijke benaderingen blijven echter discriminatief. In dit werk introduceren we DeltaTok, een tokenizer die het VFM-kenmerkverschil tussen opeenvolgende frames codeert in een enkel continu "delta"-token, en DeltaWorld, een generatief wereldmodel dat op deze tokens werkt om efficiënt diverse plausibele toekomsten te genereren. Delta-tokens reduceren video van een driedimensionale ruimtelijk-temporele representatie naar een eendimensionale temporele reeks, wat bijvoorbeeld een 1.024x tokenreductie oplevert bij 512x512 frames. Deze compacte representatie maakt hanteerbare multi-hypothese-training mogelijk, waarbij vele toekomsten parallel worden gegenereerd en alleen de beste wordt gesuperviseerd. Tijdens inferentie leidt dit tot diverse voorspellingen in een enkele voorwaartse pass. Experimenten met dichte voorspellingstaken tonen aan dat DeltaWorld toekomsten voorspelt die beter overeenkomen met real-world uitkomsten, terwijl het meer dan 35x minder parameters heeft en 2.000x minder FLOPs gebruikt dan bestaande generatieve wereldmodellen. Code en gewichten: https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Een Frame is Eén Token Waard: Efficiënte Generatieve Wereldmodellering met Delta-Tokens

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Samenvatting

Support