Un Frame Vale por un Token: Modelado Generativo Eficiente de Mundos con Tokens Delta

Resumen

Anticipar diversos estados futuros es un desafío central en el modelado de mundos en video. Los modelos de mundo discriminativos producen una predicción determinista que promedia implícitamente sobre los futuros posibles, mientras que los modelos de mundo generativos existentes siguen siendo computacionalmente costosos. Trabajos recientes demuestran que predecir el futuro en el espacio de características de un modelo fundacional de visión (VFM), en lugar de en un espacio latente optimizado para la reconstrucción de píxeles, requiere significativamente menos parámetros en el modelo de mundo. Sin embargo, la mayoría de estos enfoques siguen siendo discriminativos. En este trabajo, presentamos DeltaTok, un tokenizador que codifica la diferencia de características del VFM entre frames consecutivos en un único token continuo "delta", y DeltaWorld, un modelo de mundo generativo que opera sobre estos tokens para generar de manera eficiente futuros plausibles y diversos. Los tokens delta reducen el video de una representación espacio-temporal tridimensional a una secuencia temporal unidimensional, produciendo, por ejemplo, una reducción de 1.024x en tokens con frames de 512x512. Esta representación compacta permite un entrenamiento multi-hipótesis manejable, donde se generan muchos futuros en paralelo y solo se supervisa el mejor. En la inferencia, esto conduce a predicciones diversas en un único paso forward. Los experimentos en tareas de pronóstico denso demuestran que DeltaWorld pronostica futuros que se alinean más estrechamente con los resultados del mundo real, mientras tiene más de 35x menos parámetros y usa 2.000x menos FLOPS que los modelos de mundo generativos existentes. Código y pesos: https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Un Frame Vale por un Token: Modelado Generativo Eficiente de Mundos con Tokens Delta

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Resumen

Support