Cadeia de Mundos: Pensamento de Modelo Mundial em Movimento Latente

Resumo

Os modelos Visão-Linguagem-Ação (VLA) representam um caminho promissor para a inteligência incorporada, mas frequentemente negligenciam a estrutura preditiva e temporal-causal subjacente à dinâmica visual. Os VLAs de modelo de mundo abordam isso prevendo quadros futuros, mas desperdiçam capacidade reconstruindo fundos redundantes. Os VLAs de ação latente codificam de forma compacta as transições entre quadros, mas carecem de modelagem dinâmica temporalmente contínua e de conhecimento de mundo. Para superar essas limitações, introduzimos o CoWVLA (Chain-of-World VLA), um novo paradigma de "Cadeia de Mundo" que unifica o raciocínio temporal do modelo de mundo com uma representação de movimento latente desacoplada. Primeiro, um VAE de vídeo pré-treinado serve como um extrator de movimento latente, fatorando explicitamente segmentos de vídeo em latentes de estrutura e movimento. Em seguida, durante o pré-treinamento, o VLA aprende a partir de uma instrução e de um quadro inicial para inferir uma cadeia de movimento latente contínua e prever o quadro final do segmento. Finalmente, durante o co-ajuste fino, essa dinâmica latente é alinhada com a previsão de ação discreta através da modelagem conjunta de quadros-chave esparsos e sequências de ação em um decodificador autorregressivo unificado. Este projeto preserva os benefícios do modelo de mundo de raciocínio temporal e conhecimento de mundo, mantendo a compactação e interpretabilidade das ações latentes, permitindo uma aprendizagem visuomotora eficiente. Experimentos extensivos em benchmarks de simulação robótica mostram que o CoWVLA supera as abordagens existentes de modelo de mundo e ação latente e alcança eficiência computacional moderada, destacando seu potencial como um paradigma de pré-treinamento VLA mais eficaz. O site do projeto pode ser encontrado em https://fx-hit.github.io/cowvla-io.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Cadeia de Mundos: Pensamento de Modelo Mundial em Movimento Latente

Chain of World: World Model Thinking in Latent Motion

Resumo

Support