К преодолению разрыва между масштабным предварительным обучением и эффективным дообучением для управления гуманоидными системами
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
January 29, 2026
Авторы: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI
Аннотация
Обучение с подкреплением (RL) широко используется для управления гуманоидными роботами, при этом такие методы обучения на стратегии (on-policy), как Proximal Policy Optimization (PPO), обеспечивают надежное обучение за счет крупномасштабного параллельного моделирования и, в некоторых случаях, развертывания на реальных роботах без дополнительной доработки (zero-shot). Однако низкая эффективность использования выборки в алгоритмах on-policy ограничивает безопасную адаптацию к новым средам. Хотя внестратегировочное RL (off-policy RL) и модель-ориентированное RL (model-based RL) показали повышенную эффективность использования выборки, разрыв между крупномасштабным предварительным обучением (pretraining) и эффективной тонкой настройкой (finetuning) для гуманоидов все еще сохраняется. В данной статье мы показываем, что внестратегировочный алгоритм Soft Actor-Critic (SAC) с крупнопакетным обновлением (large-batch update) и высоким соотношением «обновления к данным» (Update-To-Data ratio, UTD) надежно поддерживает крупномасштабное предварительное обучение политик локомоции гуманоидов, обеспечивая их развертывание на реальных роботах без доработки. Что касается адаптации, мы демонстрируем, что эти предварительно обученные с помощью SAC политики могут быть тонко настроены для новых сред и задач с выходящим за пределы распределения данными (out-of-distribution) с использованием модель-ориентированных методов. Сбор данных в новой среде выполняется с помощью детерминированной политики, в то время как стохастическое исследование среды ограничивается физически обоснованной моделью мира (world model). Это разделение снижает риски случайного исследования во время адаптации, сохраняя при этом охват исследования для улучшения политики. В целом, предложенный подход сочетает в себе эффективность по реальному времени крупномасштабного моделирования на этапе предварительного обучения с эффективностью использования выборки модель-ориентированного обучения на этапе тонкой настройки.
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.