Kette der Welten: Weltmodell-Denken in latenten Bewegungen

Zusammenfassung

Vision-Language-Action (VLA)-Modelle sind ein vielversprechender Weg hin zu verkörpertter Intelligenz, vernachlässigen jedoch oft die prädiktive und temporal-kausale Struktur, die visuellen Dynamiken zugrunde liegt. World-Model-VLAs adressieren dies durch die Vorhersage zukünftiger Frames, verschwenden jedoch Kapazität für die Rekonstruktion redundanter Hintergründe. Latent-Action-VLAs kodieren Frame-zu-Frame-Übergänge kompakt, es fehlt ihnen jedoch an zeitlich kontinuierlicher Dynamikmodellierung und Weltwissen. Um diese Einschränkungen zu überwinden, führen wir CoWVLA (Chain-of-World VLA) ein, ein neues „Chain of World“-Paradigma, das die zeitliche Inferenz von World Models mit einer entflochtenen latenten Bewegungsrepräsentation vereint. Zunächst dient ein vortrainiertes Video-VAE als latenter Bewegungsextraktor, der Videosegmente explizit in Struktur- und Bewegungs-Latents faktorisiert. Während des Pre-Trainings lernt das VLA dann, aus einer Instruktion und einem Anfangsframe eine kontinuierliche latente Bewegungskette abzuleiten und den Endframe des Segments vorherzusagen. Schließlich wird während des Co-Fine-Tunings diese latente Dynamik mit diskreter Aktionsvorhersage abgeglichen, indem spärliche Keyframes und Aktionssequenzen gemeinsam in einem einheitlichen autoregressiven Decoder modelliert werden. Dieser Entwurf bewahrt die Vorteile der World Models – temporale Inferenz und Weltwissen – bei gleichzeitiger Beibehaltung der Kompaktheit und Interpretierbarkeit latenter Aktionen und ermöglicht so effizientes visuomotorisches Lernen. Umfangreiche Experimente auf Robotik-Simulations-Benchmarks zeigen, dass CoWVLA bestehende World-Model- und Latent-Action-Ansätze übertrifft und eine moderate Recheneffizienz erreicht, was sein Potenzial als effektiveres VLA-Vortrainingsparadigma unterstreicht. Die Projektwebsite ist unter https://fx-hit.github.io/cowvla-io zu finden.

English

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.

Kette der Welten: Weltmodell-Denken in latenten Bewegungen

Chain of World: World Model Thinking in Latent Motion

Zusammenfassung

Support