Apprendimento Robotico Disambiguato tramite Pretraining Separato delle Dinamiche Dirette e Inverse
Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining
March 27, 2026
Autori: Wenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) hanno mostrato un grande potenziale nella costruzione di robot generalisti, ma devono ancora affrontare un dilemma: il disallineamento tra la previsione di immagini 2D e la predizione di azioni 3D. Inoltre, questo approccio di addestramento intrecciato tra visione e azione limita l'apprendimento del modello da dati video web su larga scala privi di annotazioni azionali. Per affrontare questi problemi, proponiamo DeFI, un nuovo framework che *Decopula* il precaricamento delle dinamiche visive *Forward* e *Inverse* per sfruttare le rispettive fonti di dati, in cui la generazione video e la predizione di azioni sono disaccoppiate. Introduciamo il General Forward Dynamics Model (GFDM), precaricato su video eterogenei di umani e robot per la previsione futura, e il General Inverse Dynamics Model (GIDM), addestrato tramite apprendimento auto-supervisionato per inferire azioni latenti da transizioni video non etichettate. Questi modelli vengono poi integrati in un'architettura unificata per un fine-tuning end-to-end su task downstream. In questo modo, GFDM e GIDM brillano prima separatamente e poi cooperano per un beneficio reciproco. Esperimenti estensivi su CALVIN ABC-D e SimplerEnv dimostrano prestazioni allo stato dell'arte, con DeFI che raggiunge una lunghezza media del task di 4.51 per CALVIN, un tasso di successo del 51.2% sul benchmark SimplerEnv-Fractal e un tasso di successo dell'81.3% in scenari reali, superando significativamente i metodi precedenti.
English
Vision-language-action (VLA) models have shown great potential in building generalist robots, but still face a dilemma-misalignment of 2D image forecasting and 3D action prediction. Besides, such a vision-action entangled training manner limits model learning from large-scale, action-free web video data. To address these issues, we propose DeFI, a novel framework that Decouples visual Forward and Inverse dynamics pretraining to exploit respective data sources, wherein video generation and action prediction are disentangled. We introduce the General Forward Dynamics Model (GFDM), pretrained on diverse human and robot videos for future prediction, and the General Inverse Dynamics Model (GIDM), trained via self-supervised learning to infer latent actions from unlabeled video transitions. These models are then integrated into a unified architecture for end-to-end finetuning on downstream tasks. In this manner, GFDM and GIDM first shine separately and then cooperate for mutual benefit. Extensive experiments on CALVIN ABC-D and SimplerEnv demonstrate state-of-the-art performance, with DeFI achieving an average task length of 4.51 for CALVIN, 51.2% success rate on SimplerEnv-Fractal benchmark and 81.3% success rate in real-world deployment, significantly outperforming prior methods.