Modélisation du Monde Causal pour la Commande de Robots
Causal World Modeling for Robot Control
January 29, 2026
papers.authors: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
papers.abstract
Ce travail souligne que la modélisation du monde vidéo, associée au pré-entraînement vision-langage, constitue une base nouvelle et indépendante pour l'apprentissage robotique. Intuitivement, les modèles du monde vidéo offrent la capacité d'anticiper le futur proche en comprenant la causalité entre les actions et la dynamique visuelle. Inspirés par cela, nous présentons LingBot-VA, un framework de diffusion autorégressif qui apprend simultanément la prédiction d'images et l'exécution de politiques. Notre modèle intègre trois conceptions soigneusement élaborées : (1) un espace latent partagé intégrant les tokens visuels et d'action, piloté par une architecture Mixture-of-Transformers (MoT), (2) un mécanisme de déploiement en boucle fermée permettant l'acquisition continue de retours environnementaux avec des observations réelles, (3) un pipeline d'inférence asynchrone parallélisant la prédiction d'actions et l'exécution motrice pour supporter un contrôle efficace. Nous évaluons notre modèle sur des benchmarks de simulation et des scénarios réels, où il démontre un potentiel significatif dans la manipulation à long terme, une efficacité des données en post-entraînement et une forte généralisabilité à des configurations nouvelles. Le code et le modèle sont mis à disposition publique pour favoriser les avancées communautaires.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.