프레임 하나는 토큰 하나의 가치: 델타 토큰을 활용한 효율적인 생성형 세계 모델링
A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
April 6, 2026
저자: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen
cs.AI
초록
다양한 미래 상태를 예측하는 것은 비디오 세계 모델링의 핵심 과제입니다. 판별형 세계 모델은 가능한 미래들을 암묵적으로 평균화한 결정론적 예측을 생성하는 반면, 기존 생성형 세계 모델은 여전히 계산 비용이 높습니다. 최근 연구에서는 픽셀 재구성에 최적화된 잠재 공간이 아닌 비전 기초 모델(VFM)의 특징 공간에서 미래를 예측할 경우 세계 모델 매개변수가 크게 줄어든다는 것을 보여주었습니다. 그러나 이러한 접근법 대부분은 여전히 판별형에 머물고 있습니다. 본 연구에서는 연속된 프레임 간의 VFM 특징 차이를 단일 연속 "델타" 토큰으로 인코딩하는 토크나이저 DeltaTok와, 이러한 토큰을 기반으로 효율적으로 다양한 합리적인 미래를 생성하는 생성형 세계 모델 DeltaWorld를 소개합니다. 델타 토큰은 비디오를 3차원 시공간 표현에서 1차원 시간 시퀀스로 축소하며, 예를 들어 512x512 프레임 기준으로 1,024배의 토큰 감소를 가져옵니다. 이렇게 압축된 표현은 다중 가설 훈련을 가능하게 하는데, 많은 미래가 병렬로 생성되고 그중 최선의 결과만 지도 학습됩니다. 추론 시에는 단일 순전파만으로도 다양한 예측이 가능해집니다. 밀집 예측 작업에 대한 실험 결과, DeltaWorld는 기존 생성형 세계 모델 대비 매개변수는 35배 이상 적고 FLOPs는 2,000배 이상 적게 사용하면서도 실제 세계 결과와 더욱 정확히 일치하는 미래를 예측하는 것으로 나타났습니다. 코드 및 가중치: https://deltatok.github.io.
English
Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.