Chaîne des Mondes : La Pensée Modèle du Monde dans le Mouvement Latent

Résumé

Les modèles Vision-Langage-Action (VLA) constituent une voie prometteuse vers l'intelligence incarnée, mais ils négligent souvent la structure prédictive et temporelle-causale sous-jacente à la dynamique visuelle. Les VLAs à modèle du monde abordent ce problème en prédisant les images futures, mais gaspillent de la capacité à reconstruire des arrière-plans redondants. Les VLAs à actions latentes encodent de manière compacte les transitions entre images, mais manquent de modélisation dynamique temporellement continue et de connaissances du monde. Pour surmonter ces limitations, nous introduisons CoWVLA (Chain-of-World VLA), un nouveau paradigme de "Chaîne du Monde" qui unifie le raisonnement temporel des modèles du monde avec une représentation motionnelle latente désentrelacée. Premièrement, un VAE vidéo pré-entraîné sert d'extracteur de mouvement latent, factorisant explicitement les segments vidéo en latents de structure et de mouvement. Ensuite, lors du pré-entraînement, le VLA apprend à partir d'une instruction et d'une image initiale pour inférer une chaîne motionnelle latente continue et prédire l'image finale du segment. Enfin, lors du co-fine-tuning, cette dynamique latente est alignée avec la prédiction d'actions discrètes en modélisant conjointement des images clés éparses et des séquences d'actions dans un décodeur autorégressif unifié. Cette conception préserve les avantages du raisonnement temporel et des connaissances du monde des modèles du monde, tout en conservant la compacité et l'interprétabilité des actions latentes, permettant un apprentissage visuomoteur efficace. Des expériences approfondies sur des benchmarks de simulation robotique montrent que CoWVLA surpasse les approches existantes basées sur les modèles du monde et les actions latentes, et atteint une efficacité computationnelle modérée, soulignant son potentiel en tant que paradigme de pré-entraînement VLA plus efficace. Le site web du projet est disponible à l'adresse https://fx-hit.github.io/cowvla-io.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Chaîne des Mondes : La Pensée Modèle du Monde dans le Mouvement Latent

Chain of World: World Model Thinking in Latent Motion

Résumé

Support