ロボット制御のための因果的世界モデリング
Causal World Modeling for Robot Control
January 29, 2026
著者: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
要旨
本研究は、映像世界モデリングが視覚言語事前学習と並んで、ロボット学習における新たな独立した基盤を構築することを示す。直感的には、映像世界モデルは、行動と視覚的ダイナミクス間の因果関係を理解することで近未来を想像する能力を提供する。この着想に基づき、フレーム予測と政策実行を同時に学習する自己回帰型拡散フレームワーク「LingBot-VA」を提案する。本モデルは3つの精巧な設計を特徴とする:(1) Mixture-of-Transformers (MoT) アーキテクチャによる視覚トークンと行動トークンを統合した共有潜在空間、(2) 実観測値に基づく環境フィードバックを継続的に取得可能な閉ループ・ロールアウト機構、(3) 効率的な制御を実現するため行動予測とモーター実行を並列化する非同期推論パイプライン。シミュレーションベンチマークと実世界環境での評価により、本モデルが長期マニピュレーション、学習後データ効率、新規設定への強力な一般化能力において顕著な可能性を示すことを確認した。コードとモデルはコミュニティの発展のため公開する。
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.