ChatPaper.aiChatPaper

Modellazione Causale del Mondo per il Controllo Robotico

Causal World Modeling for Robot Control

January 29, 2026
Autori: Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu
cs.AI

Abstract

Questo lavoro evidenzia come la modellazione video del mondo, unita al pre-addestramento visione-linguaggio, costituisca una base nuova e indipendente per l'apprendimento robotico. Intuitivamente, i modelli video del mondo forniscono la capacità di immaginare il futuro prossimo comprendendo la causalità tra azioni e dinamiche visive. Ispirati da questo, introduciamo LingBot-VA, un framework di diffusione autoregressiva che apprende simultaneamente la previsione di frame e l'esecuzione di policy. Il nostro modello presenta tre design accuratamente studiati: (1) uno spazio latente condiviso, che integra token visivi e d'azione, guidato da un'architettura Mixture-of-Transformers (MoT), (2) un meccanismo di rollout a circuito chiuso, che consente l'acquisizione continua di feedback ambientali con osservazioni ground-truth, (3) una pipeline di inferenza asincrona, che parallelizza la previsione delle azioni e l'esecuzione motoria per supportare un controllo efficiente. Valutiamo il nostro modello su benchmark di simulazione e scenari reali, dove dimostra notevole potenziale nella manipolazione a lungo orizzonte, nell'efficienza dei dati post-addestramento e in una forte generalizzabilità a configurazioni non viste. Il codice e il modello sono resi pubblicamente disponibili per favorire la comunità.
English
This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.
PDF302February 27, 2026