Um Frame Vale por Um Token: Modelagem Generativa Eficiente de Mundos com Tokens Delta
A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
April 6, 2026
Autores: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen
cs.AI
Resumo
Antecipar diversos estados futuros é um desafio central na modelagem de mundos em vídeo. Os modelos de mundo discriminativos produzem uma previsão determinística que implicitamente faz uma média sobre os futuros possíveis, enquanto os modelos de mundo generativos existentes permanecem computacionalmente dispendiosos. Trabalhos recentes demonstram que prever o futuro no espaço de características de um modelo de base de visão (VFM), em vez de um espaço latente otimizado para reconstrução de pixels, requer significativamente menos parâmetros no modelo de mundo. No entanto, a maioria dessas abordagens permanece discriminativa. Neste trabalho, introduzimos o DeltaTok, um tokenizador que codifica a diferença de características do VFM entre quadros consecutivos em um único token contínuo "delta", e o DeltaWorld, um modelo de mundo generativo que opera sobre esses tokens para gerar de forma eficiente futuros plausíveis e diversos. Os tokens delta reduzem o vídeo de uma representação espaço-temporal tridimensional para uma sequência temporal unidimensional, resultando, por exemplo, numa redução de 1.024x no número de tokens com quadros de 512x512. Esta representação compacta permite um treino multi-hipótese tratável, onde muitos futuros são gerados em paralelo e apenas o melhor é supervisionado. Na inferência, isto leva a previsões diversas numa única passagem direta. Experiências em tarefas de previsão densa demonstram que o DeltaWorld prevê futuros que se alinham mais de perto com os resultados do mundo real, enquanto tem mais de 35x menos parâmetros e usa 2.000x menos FLOPS do que os modelos de mundo generativos existentes. Código e pesos: https://deltatok.github.io.
English
Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.