Catena dei Mondi: Pensiero Modellistico Mondiale nel Movimento Latente

Abstract

I modelli Vision-Language-Action (VLA) rappresentano una strada promettente verso l'intelligenza incarnata, ma spesso trascurano la struttura predittiva e temporale-causale alla base della dinamica visiva. I VLA con modello del mondo affrontano questo problema prevedendo i frame futuri, ma sprecano capacità ricostruendo sfondi ridondanti. I VLA ad azione latente codificano in modo compatto le transizioni da frame a frame, ma mancano di una modellizzazione dinamica temporalmente continua e di conoscenza del mondo. Per superare questi limiti, introduciamo CoWVLA (Chain-of-World VLA), un nuovo paradigma "Catena del Mondo" che unisce il ragionamento temporale del modello del mondo con una rappresentazione del moto latente disaccoppiata. In primo luogo, un VAE video preaddestrato funge da estrattore di moto latente, fattorizzando esplicitamente i segmenti video in latenti di struttura e di moto. Successivamente, durante il pre-addestramento, il VLA impara da un'istruzione e da un frame iniziale per inferire una catena di moto latente continua e prevedere il frame terminale del segmento. Infine, durante il co-fine-tuning, questa dinamica latente viene allineata con la previsione di azioni discrete modellando congiuntamente fotogrammi chiave sparsi e sequenze di azioni in un decoder autoregressivo unificato. Questo design preserva i vantaggi del modello del mondo in termini di ragionamento temporale e conoscenza del mondo, mantenendo al contempo la compattezza e l'interpretabilità delle azioni latenti, consentendo un apprendimento visuomotorio efficiente. Esperimenti estesi su benchmark di simulazione robotica mostrano che CoWVLA supera gli approcci esistenti basati su modello del mondo e azione latente e raggiunge un'efficienza computazionale moderata, evidenziandone il potenziale come paradigma di pre-addestramento VLA più efficace. Il sito web del progetto è disponibile all'indirizzo https://fx-hit.github.io/cowvla-io.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Catena dei Mondi: Pensiero Modellistico Mondiale nel Movimento Latente

Chain of World: World Model Thinking in Latent Motion

Abstract

Support