Rumo a Reduzir a Lacuna entre o Pré-treinamento em Larga Escala e o Ajuste Fino Eficiente para o Controle de Humanoides

Resumo

O aprendizado por reforço (RL) é amplamente utilizado para controle de humanoides, com métodos on-policy como o Proximal Policy Optimization (PPO) permitindo treinamento robusto por meio de simulação paralela em larga escala e, em alguns casos, implantação zero-shot em robôs reais. No entanto, a baixa eficiência amostral dos algoritmos on-policy limita a adaptação segura a novos ambientes. Embora o RL off-policy e o RL baseado em modelo tenham demonstrado maior eficiência amostral, ainda existe uma lacuna entre o pré-treinamento em larga escala e o ajuste fino eficiente em humanoides. Neste artigo, descobrimos que o Soft Actor-Critic (SAC) off-policy, com atualização em lote grande e uma alta razão Update-To-Data (UTD), suporta de forma confiável o pré-treinamento em larga escala de políticas de locomoção para humanoides, alcançando implantação zero-shot em robôs reais. Para adaptação, demonstramos que essas políticas pré-treinadas com SAC podem ser ajustadas em novos ambientes e tarefas fora da distribuição usando métodos baseados em modelo. A coleta de dados no novo ambiente executa uma política determinística, enquanto a exploração estocástica é confinada a um modelo mundial com informações físicas. Essa separação mitiga os riscos da exploração aleatória durante a adaptação, preservando ao mesmo tempo a cobertura exploratória para melhoria. No geral, a abordagem combina a eficiência em tempo real da simulação em larga escala durante o pré-treinamento com a eficiência amostral do aprendizado baseado em modelo durante o ajuste fino.

English

Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.

Rumo a Reduzir a Lacuna entre o Pré-treinamento em Larga Escala e o Ajuste Fino Eficiente para o Controle de Humanoides

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Resumo

Support