Кадр стоит одного токена: эффективное генеративное моделирование мира с помощью дельта-токенов

Аннотация

Предсказание разнообразных будущих состояний является ключевой задачей в моделировании видеомиров. Дискриминативные мировые модели выдают детерминистический прогноз, который неявно усредняет возможные варианты будущего, тогда как существующие генеративные мировые модели остаются вычислительно дорогими. Недавние исследования показывают, что предсказание будущего в пространстве признаков базовой модели компьютерного зрения (VFM), а не в латентном пространстве, оптимизированном для реконструкции пикселей, требует значительно меньшего количества параметров мировой модели. Однако большинство таких подходов остаются дискриминативными. В данной работе мы представляем DeltaTok — токенизатор, который кодирует разницу признаков VFM между последовательными кадрами в единый непрерывный "дельта-токен", и DeltaWorld — генеративную мировую модель, работающую с этими токенами для эффективного генерирования разнообразных правдоподобных будущих состояний. Дельта-токены преобразуют видео из трехмерного пространственно-временного представления в одномерную временную последовательность, например, обеспечивая сокращение количества токенов в 1024 раза для кадров 512x512. Это компактное представление делает осуществимым многогипотезное обучение, при котором множество вариантов будущего генерируется параллельно, а контролируется только наилучший. На этапе вывода это позволяет получать разнообразные предсказания за один прямой проход. Эксперименты на задачах плотного прогнозирования демонстрируют, что DeltaWorld прогнозирует будущие состояния, которые точнее соответствуют реальным результатам, при этом имея более чем в 35 раз меньше параметров и используя в 2000 раз меньше FLOPs по сравнению с существующими генеративными мировыми моделями. Код и веса: https://deltatok.github.io.

English

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.

Кадр стоит одного токена: эффективное генеративное моделирование мира с помощью дельта-токенов

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Аннотация

Support