ChatPaper.aiChatPaper

Modelagem de Mundo Causal para Controle Robótico

Causal World Modeling for Robot Control

January 29, 2026
Autores: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI

Resumo

Este trabalho destaca que a modelagem de mundos em vídeo, juntamente com o pré-treinamento visão-linguagem, estabelece uma base nova e independente para a aprendizagem de robôs. Intuitivamente, os modelos de mundo em vídeo fornecem a capacidade de imaginar o futuro próximo através da compreensão da causalidade entre ações e dinâmicas visuais. Inspirados por isso, introduzimos o LingBot-VA, uma estrutura de difusão autoregressiva que aprende a previsão de quadros e a execução de políticas simultaneamente. Nosso modelo apresenta três projetos cuidadosamente elaborados: (1) um espaço latente compartilhado, integrando tokens visuais e de ação, orientado por uma arquitetura *Mixture-of-Transformers* (MoT), (2) um mecanismo de *rollout* em circuito fechado, permitindo a aquisição contínua de *feedback* ambiental com observações de verdade terrestre (*ground-truth*), (3) um pipeline de inferência assíncrona, paralelizando a previsão de ações e a execução motora para suportar um controle eficiente. Avaliamos nosso modelo tanto em benchmarks de simulação quanto em cenários do mundo real, onde ele demonstra um potencial significativo na manipulação de longo horizonte, eficiência de dados no pós-treinamento e forte generalização para novas configurações. O código e o modelo estão disponíveis publicamente para facilitar a comunidade.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.
PDF302February 27, 2026