Un Frame Vale un Token: Modellazione Efficiente del Mondo Generativo con Delta Token

Abstract

Anticipare stati futuri diversi è una sfida centrale nella modellazione del mondo video. I modelli di mondo discriminativi producono una previsione deterministica che media implicitamente i possibili futuri, mentre i modelli di mondo generativi esistenti rimangono computazionalmente costosi. Recenti lavori dimostrano che prevedere il futuro nello spazio delle caratteristiche (feature space) di un modello base per la visione (VFM), piuttosto che in uno spazio latente ottimizzato per la ricostruzione dei pixel, richiede un numero significativamente inferiore di parametri nel modello mondiale. Tuttavia, la maggior parte di questi approcci rimane discriminativa. In questo lavoro, introduciamo DeltaTok, un tokenizer che codifica la differenza tra le caratteristiche del VFM di frame consecutivi in un singolo token continuo "delta", e DeltaWorld, un modello di mondo generativo che opera su questi token per generare in modo efficiente futuri plausibili e diversificati. I token delta riducono il video da una rappresentazione spaziotemporale tridimensionale a una sequenza temporale unidimensionale, ad esempio ottenendo una riduzione di 1.024x dei token con frame 512x512. Questa rappresentazione compatta abilita un addestramento multi-ipotesi trattabile, in cui molti futuri vengono generati in parallelo e solo il migliore viene supervisionato. In fase di inferenza, questo porta a previsioni diversificate in un unico passaggio in avanti. Esperimenti su compiti di forecasting denso dimostrano che DeltaWorld prevede futuri che si allineano più fedelmente agli esiti del mondo reale, pur avendo oltre 35x parametri in meno e utilizzando 2.000x FLOP in meno rispetto ai modelli di mondo generativi esistenti. Codice e pesi: https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Un Frame Vale un Token: Modellazione Efficiente del Mondo Generativo con Delta Token

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Abstract

Support