ChatPaper.aiChatPaper

Auf dem Weg zur Überbrückung der Kluft zwischen umfangreichem Pretraining und effizientem Finetuning für die humanoide Steuerung

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

January 29, 2026
papers.authors: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang
cs.AI

papers.abstract

Reinforcement Learning (RL) wird häufig für die Steuerung humanoider Roboter eingesetzt, wobei On-Policy-Methoden wie Proximal Policy Optimization (PPO) durch groß angelegte Parallelsimulation ein robustes Training und in einigen Fällen sogar Zero-Shot-Übertragung auf echte Roboter ermöglichen. Die geringe Sample-Effizienz von On-Policy-Algorithmen begrenzt jedoch die sichere Anpassung an neue Umgebungen. Obwohl Off-Policy-RL und modellbasiertes RL eine verbesserte Sample-Effizienz gezeigt haben, besteht weiterhin eine Lücke zwischen groß angelegtem Pretraining und effizientem Finetuning bei humanoiden Systemen. In dieser Arbeit zeigen wir, dass Off-Policy-Soft Actor-Critic (SAC) mit Large-Batch-Updates und einem hohen Update-To-Data (UTD)-Verhältnis groß angelegtes Pretraining von Lokomotionspolitiken für humanoide Roboter zuverlässig unterstützt und Zero-Shot-Übertragung auf reale Roboter erreicht. Für die Anpassung demonstrieren wir, dass diese SAC-vortrainierten Politiken in neuen Umgebungen und Out-of-Distribution-Aufgaben mit modellbasierten Methoden feinabgestimmt werden können. Die Datensammlung in der neuen Umgebung erfolgt durch eine deterministische Politik, während stochastische Exploration auf ein physikalisch informiertes Weltmodell beschränkt wird. Diese Trennung mindert die Risiken zufälliger Exploration während der Anpassung, bewahrt aber gleichzeitig die explorative Abdeckung für Verbesserungen. Insgesamt verbindet der Ansatz die Zeit effiziente groß angelegte Simulation während des Pretrainings mit der Sample-Effizienz modellbasierten Lernens während des Finetunings.
English
Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.
PDF44February 11, 2026