Ontvlochten Robotleren via Afzonderlijke Voorwaartse en Inverse Dynamica Voorafgaande Training

Samenvatting

Vision-language-action (VLA)-modellen hebben een groot potentieel getoond voor het ontwikkelen van generalistische robots, maar kampen nog steeds met een dilemma: de misalignering van 2D-beeldvoorspelling en 3D-actievoorspelling. Bovendien beperkt deze visie-actie-verstrengelde trainingsaanpak het vermogen van het model om te leren van grootschalige, actievrije webvideogegevens. Om deze problemen aan te pakken, stellen we DeFI voor, een nieuw raamwerk dat visuele Forward- en Inverse-dynamica-pretraining ontkoppelt om respectievelijke gegevensbronnen te benutten, waarbij videogeneratie en actievoorspelling worden ontward. We introduceren het General Forward Dynamics Model (GFDM), voorgetraind op diverse menselijke en robotvideo's voor toekomstvoorspelling, en het General Inverse Dynamics Model (GIDM), getraind via zelfgesuperviseerd leren om latente acties af te leiden uit ongelabelde videotransities. Deze modellen worden vervolgens geïntegreerd in een uniforme architectuur voor end-to-end finetuning op downstreamtaken. Op deze manier blinken GFDM en GIDM eerst afzonderlijk uit en werken daarna samen voor wederzijds voordeel. Uitgebreide experimenten op CALVIN ABC-D en SimplerEnv tonen state-of-the-art prestaties aan, waarbij DeFI een gemiddelde taaklengte van 4,51 behaalt voor CALVIN, een slagingspercentage van 51,2% op de SimplerEnv-Fractal-benchmark en 81,3% succes in real-world implementatie, wat een significante verbetering is ten opzichte van eerdere methoden.

English

Vision-language-action (VLA) models have shown great potential in building generalist robots, but still face a dilemma-misalignment of 2D image forecasting and 3D action prediction. Besides, such a vision-action entangled training manner limits model learning from large-scale, action-free web video data. To address these issues, we propose DeFI, a novel framework that Decouples visual Forward and Inverse dynamics pretraining to exploit respective data sources, wherein video generation and action prediction are disentangled. We introduce the General Forward Dynamics Model (GFDM), pretrained on diverse human and robot videos for future prediction, and the General Inverse Dynamics Model (GIDM), trained via self-supervised learning to infer latent actions from unlabeled video transitions. These models are then integrated into a unified architecture for end-to-end finetuning on downstream tasks. In this manner, GFDM and GIDM first shine separately and then cooperate for mutual benefit. Extensive experiments on CALVIN ABC-D and SimplerEnv demonstrate state-of-the-art performance, with DeFI achieving an average task length of 4.51 for CALVIN, 51.2% success rate on SimplerEnv-Fractal benchmark and 81.3% success rate in real-world deployment, significantly outperforming prior methods.

Ontvlochten Robotleren via Afzonderlijke Voorwaartse en Inverse Dynamica Voorafgaande Training

Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

Samenvatting

Support