Modelado del Mundo Causal para el Control de Robots
Causal World Modeling for Robot Control
January 29, 2026
Autores: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI
Resumen
Este trabajo demuestra que el modelado de mundos en video, junto con el preentrenamiento visión-lenguaje, establece una base nueva e independiente para el aprendizaje robótico. Intuitivamente, los modelos de mundo en video permiten imaginar el futuro cercano al comprender la causalidad entre las acciones y la dinámica visual. Inspirados por esto, presentamos LingBot-VA, un marco de difusión autorregresivo que aprende simultáneamente la predicción de frames y la ejecución de políticas. Nuestro modelo incorpora tres diseños cuidadosamente elaborados: (1) un espacio latente compartido que integra tokens de visión y acción, impulsado por una arquitectura Mixture-of-Transformers (MoT), (2) un mecanismo de despliegue en bucle cerrado que permite la adquisición continua de retroalimentación ambiental con observaciones de terreno verdadero, y (3) una canalización de inferencia asíncrona que paraleliza la predicción de acciones y la ejecución motora para permitir un control eficiente. Evaluamos nuestro modelo tanto en benchmarks de simulación como en escenarios del mundo real, donde muestra un potencial significativo en manipulación de horizonte largo, eficiencia de datos post-entrenamiento y una fuerte capacidad de generalización a configuraciones novedosas. El código y el modelo están disponibles públicamente para facilitar el trabajo de la comunidad.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.