Колмогоровская причинно-следственная модель мира для управления роботами
Causal World Modeling for Robot Control
January 29, 2026
Авторы: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
Аннотация
Данная работа демонстрирует, что моделирование мира на основе видео в сочетании с предварительным обучением на визуально-языковых данных формирует новую и самостоятельную основу для обучения роботов. Интуитивно, видеомодели мира предоставляют возможность предсказывать ближайшее будущее за счет понимания причинно-следственных связей между действиями и визуальной динамикой. Вдохновленные этим, мы представляем LingBot-VA — авторегрессионную диффузионную архитектуру, которая одновременно обучается прогнозированию кадров и исполнению политик. Наша модель включает три тщательно разработанных компонента: (1) общее латентное пространство, объединяющее визуальные и акторные токены на основе архитектуры Mixture-of-Transformers (MoT), (2) механизм замкнутого прогнозирования (closed-loop rollout), позволяющий непрерывно получать обратную связь от среды с использованием реальных наблюдений, (3) асинхронный конвейер вывода, параллелизирующий прогнозирование действий и моторное исполнение для обеспечения эффективного управления. Мы оцениваем нашу модель на симуляционных тестах и в реальных сценариях, где она демонстрирует значительный потенциал в задачах длительного манипулирования, высокой данныхой эффективности после обучения и robustной обобщаемости к новым конфигурациям. Код и модель публично доступны для содействия научному сообществу.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.