Vers un pont entre le pré-entraînement à grande échelle et le réglage fin efficace pour le contrôle humanoïde
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
January 29, 2026
papers.authors: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) est largement utilisé pour le contrôle des humanoïdes, les méthodes *on-policy* telles que l'Optimisation Proximale des Politiques (PPO) permettant un entraînement robuste via une simulation parallèle à grande échelle et, dans certains cas, un déploiement *zero-shot* sur des robots réels. Cependant, la faible efficacité en échantillons des algorithmes *on-policy* limite l'adaptation en sécurité à de nouveaux environnements. Bien que le RL *off-policy* et le RL basé sur modèle aient démontré une meilleure efficacité en échantillons, l'écart entre le pré-entraînement à grande échelle et le réglage fin efficace sur les humanoïdes persiste. Dans cet article, nous montrons que la méthode *off-policy* Soft Actor-Critic (SAC), avec une mise à jour par grands lots et un ratio élevé de Mises à Jour par Rapport aux Données (UTD), supporte de manière fiable le pré-entraînement à grande échelle de politiques de locomotion pour humanoïdes, permettant un déploiement *zero-shot* sur des robots réels. Pour l'adaptation, nous démontrons que ces politiques pré-entraînées par SAC peuvent être affinées dans de nouveaux environnements et pour des tâches hors-distribution à l'aide de méthodes basées sur modèle. La collecte de données dans le nouvel environnement exécute une politique déterministe tandis que l'exploration stochastique est confinée à un modèle du monde informé par la physique. Cette séparation atténue les risques de l'exploration aléatoire durant l'adaptation tout en préservant une couverture exploratoire pour l'amélioration. Globalement, l'approche combine l'efficacité en temps réel de la simulation à grande échelle lors du pré-entraînement avec l'efficacité en échantillons de l'apprentissage basé sur modèle lors du réglage fin.
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.