Hacia la Reducción de la Brecha entre el Pretrenamiento a Gran Escala y el Ajuste Fino Eficiente para el Control de Humanoides
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
January 29, 2026
Autores: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI
Resumen
El aprendizaje por refuerzo (RL) se utiliza ampliamente para el control de humanoides, con métodos *on-policy* como la Optimización de Políticas Proximales (PPO) que permiten un entrenamiento robusto mediante simulación paralela a gran escala y, en algunos casos, un despliegue *zero-shot* en robots reales. Sin embargo, la baja eficiencia muestral de los algoritmos *on-policy* limita la adaptación segura a nuevos entornos. Aunque el RL *off-policy* y el RL basado en modelos han demostrado una mayor eficiencia muestral, aún existe una brecha entre el preentrenamiento a gran escala y el ajuste fino eficiente en humanoides. En este artículo, encontramos que el algoritmo *off-policy* Soft Actor-Critic (SAC), con actualizaciones de lotes grandes y una alta relación Actualización-a-Datos (UTD), respalda de manera fiable el preentrenamiento a gran escala de políticas de locomoción para humanoides, logrando un despliegue *zero-shot* en robots reales. Para la adaptación, demostramos que estas políticas preentrenadas con SAC pueden ajustarse en nuevos entornos y tareas fuera de distribución utilizando métodos basados en modelos. La recolección de datos en el nuevo entorno ejecuta una política determinista, mientras que la exploración estocástica se confina a un modelo del mundo informado por la física. Esta separación mitiga los riesgos de la exploración aleatoria durante la adaptación, al mismo tiempo que preserva la cobertura exploratoria para la mejora. En general, el enfoque combina la eficiencia en tiempo real del preentrenamiento con simulación a gran escala con la eficiencia muestral del aprendizaje basado en modelos durante el ajuste fino.
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.