Kausale Weltmodellierung für Robotiksteuerung
Causal World Modeling for Robot Control
January 29, 2026
papers.authors: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
papers.abstract
Diese Arbeit zeigt auf, dass Videoweltenmodellierung in Verbindung mit Vision-Sprache-Vortraining eine neue und eigenständige Grundlage für Robotik-Lernen schafft. Intuitiv ermöglichen Videoweltenmodelle die Vorausschau naher Zukunftsszenarien durch das Verständnis von Kausalität zwischen Aktionen und visueller Dynamik. Inspiriert davon führen wir LingBot-VA ein, ein autoregressives Diffusionsframework, das gleichzeitig Bildsequenzvorhersage und Policy-Ausführung erlernt. Unser Modell umfasst drei speziell entwickelte Komponenten: (1) einen gemeinsamen latenten Raum zur Integration von Visons- und Aktions-Tokens, realisiert durch eine Mixture-of-Transformers (MoT)-Architektur, (2) einen Closed-Loop-Rollout-Mechanismus für kontinuierlichen Erhalt von Umweltfeedback mittels echter Beobachtungen, (3) eine asynchrone Inferenzpipeline zur Parallelisierung von Aktionsvorhersage und Motorausführung für effiziente Steuerung. Die Evaluation in Simulationsbenchmarks und realen Szenarien zeigt vielversprechende Ergebnisse bei Langzeithandhabungsaufgaben, hoher Dateneffizienz nach dem Training und starker Generalisierbarkeit auf neue Konfigurationen. Code und Modell sind öffentlich verfügbar, um die Forschungsgemeinschaft zu unterstützen.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.