Cadena de Mundos: Pensamiento de Modelos del Mundo en el Movimiento Latente

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) representan una vía prometedora hacia la inteligencia embodada, aunque a menudo pasan por alto la estructura predictiva y temporal-causal subyacente a la dinámica visual. Los VLA de modelo del mundo abordan esto prediciendo fotogramas futuros, pero desperdician capacidad reconstruyendo fondos redundantes. Los VLA de acciones latentes codifican de forma compacta las transiciones entre fotogramas, pero carecen de un modelado dinámico temporalmente continuo y de conocimiento del mundo. Para superar estas limitaciones, presentamos CoWVLA (Chain-of-World VLA), un nuevo paradigma de "Cadena del Mundo" que unifica el razonamiento temporal del modelo del mundo con una representación de movimiento latente desentrelazada. Primero, un VAE de vídeo preentrenado actúa como extractor de movimiento latente, factorizando explícitamente segmentos de vídeo en latentes de estructura y movimiento. Luego, durante el preentrenamiento, el VLA aprende a partir de una instrucción y un fotograma inicial para inferir una cadena de movimiento latente continua y predecir el fotograma terminal del segmento. Finalmente, durante el ajuste fino conjunto, esta dinámica latente se alinea con la predicción de acciones discretas modelando conjuntamente fotogramas clave dispersos y secuencias de acciones en un decodificador autorregresivo unificado. Este diseño preserva los beneficios del modelo del mundo (razonamiento temporal y conocimiento del mundo) mientras mantiene la compacidad e interpretabilidad de las acciones latentes, permitiendo un aprendizaje visuomotor eficiente. Experimentos exhaustivos en benchmarks de simulación robótica muestran que CoWVLA supera a los enfoques existentes de modelo del mundo y acciones latentes y logra una eficiencia computacional moderada, destacando su potencial como paradigma de preentrenamiento VLA más efectivo. El sitio web del proyecto puede encontrarse en https://fx-hit.github.io/cowvla-io.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Cadena de Mundos: Pensamiento de Modelos del Mundo en el Movimiento Latente

Chain of World: World Model Thinking in Latent Motion

Resumen

Support