Un cadre vaut un jeton : modélisation générative efficace du monde avec des jetons delta

Résumé

Anticiper des états futurs diversifiés constitue un défi central dans la modélisation du monde vidéo. Les modèles de monde discriminatifs produisent une prédiction déterministe qui moyenne implicitement les futurs possibles, tandis que les modèles de monde génératifs existants restent coûteux en calcul. Des travaux récents démontrent que prédire le futur dans l'espace de caractéristiques d'un modèle de fondation visuel (VFM), plutôt que dans un espace latent optimisé pour la reconstruction pixel, nécessite beaucoup moins de paramètres dans le modèle de monde. Cependant, la plupart de ces approches restent discriminatives. Dans ce travail, nous présentons DeltaTok, un tokenizer qui encode la différence de caractéristiques VFM entre des frames consécutives en un unique token continu "delta", et DeltaWorld, un modèle de monde génératif opérant sur ces tokens pour générer efficacement des futurs plausibles et diversifiés. Les tokens delta réduisent la vidéo d'une représentation spatio-temporelle tridimensionnelle à une séquence temporelle unidimensionnelle, par exemple en produisant une réduction de 1 024x des tokens avec des frames de 512x512. Cette représentation compacte permet un entraînement multi-hypothèses traitable, où de nombreux futurs sont générés en parallèle et seul le meilleur est supervisé. À l'inférence, cela conduit à des prédictions diversifiées en une seule passe avant. Les expériences sur des tâches de prévision dense démontrent que DeltaWorld prédit des futurs qui s'alignent plus étroitement sur les résultats du monde réel, tout en ayant plus de 35x moins de paramètres et en utilisant 2 000x moins de FLOPs que les modèles de monde génératifs existants. Code et poids : https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Un cadre vaut un jeton : modélisation générative efficace du monde avec des jetons delta

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Résumé

Support