Causale Wereldmodellering voor Robotbesturing
Causal World Modeling for Robot Control
January 29, 2026
Auteurs: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
Samenvatting
Dit werk benadrukt dat videowereldmodellering, samen met visie-taalvoorafscholing, een nieuwe en onafhankelijke basis vormt voor robotleren. Intuïtief bieden videowereldmodellen de mogelijkheid om de nabije toekomst te verbeelden door het causaliteitsverband tussen acties en visuele dynamiek te begrijpen. Geïnspireerd hierdoor introduceren wij LingBot-VA, een autoregressief diffusieraamwerk dat framevoorspelling en beleidsuitvoering gelijktijdig aanleert. Ons model kenmerkt zich door drie zorgvuldig ontworpen componenten: (1) een gedeelde latente ruimte die visie- en actietokens integreert, aangedreven door een Mixture-of-Transformers (MoT)-architectuur, (2) een gesloten feedbacklusmechanisme voor continue verwerving van omgevingsfeedback met grondwaarnemingen, (3) een asynchrone inferentiepijplijn die actievoorspelling en motorexecutie paralleliseert voor efficiënte controle. We evalueren ons model op zowel simulatiebenchmarks als real-world scenario's, waar het significante belofte toont in langetermijnmanipulatie, data-efficiëntie na training en sterke generaliseerbaarheid naar nieuwe configuraties. De code en het model zijn openbaar beschikbaar gesteld om de onderzoeksgemeenschap te faciliteren.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.