로봇 제어를 위한 인과적 세계 모델링
Causal World Modeling for Robot Control
January 29, 2026
저자: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
초록
본 연구는 비디오 세계 모델링이 시각-언어 사전 학습과 함께 로봇 학습의 새롭고 독자적인 기반을 마련함을 강조합니다. 직관적으로 비디오 세계 모델은 행동과 시각적 역학 간의 인과관계를 이해함으로써 가까운 미래를 예측하는 능력을 제공합니다. 이에 영감을 받아 프레임 예측과 정책 실행을 동시에 학습하는 자기회귀 디퓨전 프레임워크인 LingBot-VA를 제안합니다. 우리 모델은 세 가지 신중하게 설계된 특징을 갖춥니다: (1) Mixture-of-Transformers(MoT) 아키텍처 기반의 시각 및 행동 토큰을 통합한 공유 잠재 공간, (2) 실제 관측값을 통한 지속적인 환경 피드백 수집이 가능한 폐쇄형 롤아웃 메커니즘, (3) 효율적 제어를 위해 행동 예측과 모터 실행을 병렬 처리하는 비동기 추론 파이프라인. 우리는 모델을 시뮬레이션 벤치마크와 실제 환경에서 평가하였으며, 장기간 조작 작업, 사후 학습의 데이터 효율성, 새로운 환경 구성에 대한 강력한 일반화 성능에서 상당한 가능성을 보여주었습니다. 커뮤니티의 발전을 위해 코드와 모델을 공개하였습니다.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.