Aprendizado de Robôs Desacoplado via Pré-treinamento Separado de Dinâmica Direta e Inversa
Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining
March 27, 2026
Autores: Wenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang
cs.AI
Resumo
Os modelos visão-linguagem-ação (VLA) têm demonstrado grande potencial na construção de robôs generalistas, mas ainda enfrentam um dilema: o desalinhamento entre a previsão de imagens 2D e a predição de ações 3D. Além disso, essa forma de treinamento entrelaçada entre visão e ação limita a capacidade do modelo de aprender a partir de dados de vídeo da web em larga escala e livres de ações. Para resolver esses problemas, propomos o DeFI, uma nova estrutura que Desacopla o pré-treinamento de dinâmicas visuais Diretas e Inversas para explorar respectivas fontes de dados, na qual a geração de vídeo e a predição de ação são dissociadas. Introduzimos o Modelo de Dinâmica Direta Geral (GFDM), pré-treinado em diversos vídeos de humanos e robôs para previsão futura, e o Modelo de Dinâmica Inversa Geral (GIDM), treinado via aprendizado auto supervisionado para inferir ações latentes a partir de transições de vídeo não rotuladas. Esses modelos são então integrados em uma arquitetura unificada para ajuste fino de ponta a ponta em tarefas subsequentes. Dessa forma, o GFDM e o GIDM primeiro se destacam separadamente e depois cooperam para benefício mútuo. Experimentos extensivos no CALVIN ABC-D e no SimplerEnv demonstram desempenho de última geração, com o DeFI alcançando um comprimento médio de tarefa de 4,51 para o CALVIN, taxa de sucesso de 51,2% no benchmark SimplerEnv-Fractal e 81,3% de taxa de sucesso em implantação no mundo real, superando significativamente métodos anteriores.
English
Vision-language-action (VLA) models have shown great potential in building generalist robots, but still face a dilemma-misalignment of 2D image forecasting and 3D action prediction. Besides, such a vision-action entangled training manner limits model learning from large-scale, action-free web video data. To address these issues, we propose DeFI, a novel framework that Decouples visual Forward and Inverse dynamics pretraining to exploit respective data sources, wherein video generation and action prediction are disentangled. We introduce the General Forward Dynamics Model (GFDM), pretrained on diverse human and robot videos for future prediction, and the General Inverse Dynamics Model (GIDM), trained via self-supervised learning to infer latent actions from unlabeled video transitions. These models are then integrated into a unified architecture for end-to-end finetuning on downstream tasks. In this manner, GFDM and GIDM first shine separately and then cooperate for mutual benefit. Extensive experiments on CALVIN ABC-D and SimplerEnv demonstrate state-of-the-art performance, with DeFI achieving an average task length of 4.51 for CALVIN, 51.2% success rate on SimplerEnv-Fractal benchmark and 81.3% success rate in real-world deployment, significantly outperforming prior methods.