Verso il superamento del divario tra pre-addestramento su larga scala e fine-tuning efficiente per il controllo umanoide

Abstract

L'apprendimento per rinforzo (RL) è ampiamente utilizzato per il controllo di robot umanoidi, con metodi on-policy come il Proximal Policy Optimization (PPO) che abilitano un addestramento robusto attraverso simulazioni parallele su larga scala e, in alcuni casi, una distribuzione zero-shot su robot reali. Tuttavia, la bassa efficienza campionaria degli algoritmi on-policy limita un adattamento sicuro a nuovi ambienti. Sebbene l'RL off-policy e l'RL basato su modello abbiano dimostrato una maggiore efficienza campionaria, il divario tra il pre-addestramento su larga scala e il fine-tuning efficiente su umanoidi permane. In questo articolo, dimostriamo che l'algoritmo off-policy Soft Actor-Critic (SAC), con aggiornamenti su batch di grandi dimensioni e un alto rapporto Update-To-Data (UTD), supporta in modo affidabile il pre-addestramento su larga scala di politiche per la locomozione di umanoidi, raggiungendo una distribuzione zero-shot su robot reali. Per l'adattamento, dimostriamo che queste politiche pre-addestrate con SAC possono essere affinate in nuovi ambienti e in compiti fuori distribuzione utilizzando metodi basati su modello. La raccolta di dati nel nuovo ambiente esegue una politica deterministica, mentre l'esplorazione stocastica è confinata a un modello del mondo informato dalla fisica. Questa separazione mitiga i rischi dell'esplorazione casuale durante l'adattamento, preservando al contempo la copertura esplorativa per il miglioramento. Nel complesso, l'approccio combina l'efficienza in tempo reale della simulazione su larga scala durante il pre-addestramento con l'efficienza campionaria dell'apprendimento basato su modello durante il fine-tuning.

English

Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.

Verso il superamento del divario tra pre-addestramento su larga scala e fine-tuning efficiente per il controllo umanoide

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Abstract

Support