휴머노이드 제어를 위한 대규모 사전 학습과 효율적 미세 조정 간의 격차 해소를 향하여
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
January 29, 2026
저자: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI
초록
강화 학습(RL)은 휴머노이드 제어에 널리 사용되며, PPO(Proximal Policy Optimization)와 같은 온-정책 방법을 통해 대규모 병렬 시뮬레이션을 통한 강건한 학습과 경우에 따라 실제 로봇으로의 제로샷 배치를 가능하게 합니다. 그러나 온-정책 알고리즘의 낮은 샘플 효율성은 새로운 환경에 대한 안전한 적응을 제한합니다. 오프-정책 RL 및 모델 기반 RL이 향상된 샘플 효율성을 보여주지만, 휴머노이드에 대한 대규모 사전 학습과 효율적인 미세 조정 간의 격차는 여전히 존재합니다. 본 논문에서는 대규모 배치 업데이트와 높은 UTD(Update-To-Data) 비율을 갖춘 오프-정책 SAC(Soft Actor-Critic)가 휴머노이드 운동 정책의 대규모 사전 학습을 안정적으로 지원하며 실제 로봇에서 제로샷 배치를 달성함을 확인했습니다. 적응을 위해, 이러한 SAC로 사전 학습된 정책이 모델 기반 방법을 사용하여 새로운 환경 및 분포 외 작업에서 미세 조정될 수 있음을 입증합니다. 새로운 환경에서의 데이터 수집은 결정론적 정책을 실행하는 반면, 확률적 탐험은 물리 정보 기반 월드 모델 내로 제한됩니다. 이러한 분리는 적응 과정에서 무작위 탐험의 위험을 완화하면서 개선을 위한 탐험 범위를 보존합니다. 전반적으로 이 접근 방식은 사전 학습 단계의 대규모 시뮬레이션의 실제 시간 효율성과 미세 조정 단계의 모델 기반 학습의 샘플 효율성을 결합합니다.
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.