ヒューマノイド制御における大規模事前学習と効率的なファインチューニングのギャップ解消に向けて
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
January 29, 2026
著者: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI
要旨
強化学習(RL)はヒューマノイド制御に広く用いられており、近接方策最適化(PPO)などの方策オン手法は、大規模並列シミュレーションによるロバストな学習と、場合によっては実機へのゼロショット展開を可能にします。しかし、方策オンアルゴリズムのサンプル効率の低さは、新たな環境への安全な適応を制限します。方策オフRLやモデルベースRLはサンプル効率の向上を示していますが、ヒューマノイドにおける大規模事前学習と効率的なファインチューニングの間には依然として隔たりが存在します。本論文では、大規模バッチ更新と高い更新対データ(UTD)比を備えた方策オフ手法であるSoft Actor-Critic(SAC)が、ヒューマノイドの歩行方策の大規模事前学習を確実に支え、実機へのゼロショット展開を達成できることを明らかにします。適応に関しては、SACで事前学習した方策が、モデルベース手法を用いて新環境や分布外タスクでファインチューニング可能であることを実証します。新環境でのデータ収集は決定論的方策で実行し、確率的探索は物理情報に基づく世界モデル内に閉じ込めます。この分離により、適応中のランダム探索のリスクを軽減しつつ、改善のための探索的カバレッジを維持します。全体として、本手法は事前学習における大規模シミュレーションの壁時間効率と、ファインチューニングにおけるモデルベース学習のサンプル効率を結合したものと言えます。
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.