ECO: Energiebeschränkte Optimierung mit bestärkendem Lernen für humanoide Fortbewegung
ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking
February 6, 2026
papers.authors: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su
cs.AI
papers.abstract
Die Realisierung einer stabilen und energieeffizienten Fortbewegung ist entscheidend dafür, dass humanoide Roboter kontinuierlich in realen Anwendungsszenarien operieren können. Bestehende MPC- und RL-Ansätze stützen sich häufig auf energiebezogene Metriken, die in einen multiobjektiven Optimierungsrahmen eingebettet sind. Diese erfordern eine umfangreiche Hyperparameterabstimmung und führen oft zu suboptimalen Strategien. Um diese Herausforderungen zu bewältigen, schlagen wir ECO (Energy-Constrained Optimization) vor, einen constraint-basierten RL-Rahmen, der energiebezogene Metriken von Belohnungen trennt und sie als explizite Ungleichheitsnebenbedingungen reformuliert. Diese Methode bietet eine klare und interpretierbare physikalische Darstellung der Energiekosten und ermöglicht eine effizientere und intuitivere Hyperparameterabstimmung zur Verbesserung der Energieeffizienz. ECO führt dedizierte Nebenbedingungen für Energieverbrauch und Referenzbewegung ein, die durch die Lagrange-Methode durchgesetzt werden, um ein stabiles, symmetrisches und energieeffizientes Gehen für humanoide Roboter zu erreichen. Wir evaluierten ECO im Vergleich zu MPC, Standard-RL mit Reward-Shaping sowie vier state-of-the-art constraint-basierten RL-Methoden. Experimente, einschließlich Sim-to-Sim- und Sim-to-Real-Transfers auf dem kindgroßen humanoiden Roboter BRUCE, zeigen, dass ECO den Energieverbrauch im Vergleich zu den Baseline-Methoden signifikant reduziert und gleichzeitig eine robuste Gehleistung beibehält. Diese Ergebnisse unterstreichen einen bedeutenden Fortschritt in der energieeffizienten Fortbewegung humanoider Roboter. Alle experimentellen Demonstrationen sind auf der Projektwebsite verfügbar: https://sites.google.com/view/eco-humanoid.
English
Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.