Keten van Werelden: Wereldmodel-denken in Latente Beweging

Samenvatting

Vision-Language-Action (VLA)-modellen vormen een veelbelovende weg naar belichaamde intelligentie, maar ze negeren vaak de voorspellende en temporeel-causale structuur die ten grondslag ligt aan visuele dynamiek. World-model VLA's pakken dit aan door toekomstige frames te voorspellen, maar verspillen capaciteit aan het reconstrueren van redundante achtergronden. Latent-action VLA's coderen frame-na-frame-overgangen compact, maar missen temporeel continue dynamische modellering en wereldkennis. Om deze beperkingen te overwinnen, introduceren we CoWVLA (Chain-of-World VLA), een nieuw "Chain of World"-paradigma dat temporeel redeneren met wereldmodellen verenigt met een ontvlochten latente bewegingsrepresentatie. Ten eerste fungeert een vooraf getrainde video-VAE als een latente bewegingsextractor, die videosegmenten expliciet factoriseert in structuur- en bewegingslatenten. Vervolgens leert de VLA tijdens de voorafgaande training, op basis van een instructie en een initieel frame, om een continue keten van latente bewegingen af te leiden en het eindframe van het segment te voorspellen. Ten slotte wordt tijdens de co-fine-tuning deze latente dynamiek afgestemd op discrete actievoorspelling door gezamenlijke modellering van sparse keyframes en actiesequenties in een uniforme autoregressieve decoder. Dit ontwerp behoudt de voordelen van temporeel redeneren en wereldkennis van wereldmodellen, terwijl de compactheid en interpreteerbaarheid van latente acties behouden blijft, wat efficiënte visuomotore learning mogelijk maakt. Uitgebreide experimenten op robotica-simulatiebenchmarks tonen aan dat CoWVLA bestaande world-model- en latent-action-benaderingen overtreft en een matige computationele efficiëntie bereikt, wat het potentieel ervan als effectiever VLA-voorafgaand-trainingsparadigma benadrukt. De projectwebsite is te vinden op https://fx-hit.github.io/cowvla-io.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Keten van Werelden: Wereldmodel-denken in Latente Beweging

Chain of World: World Model Thinking in Latent Motion

Samenvatting

Support