ECO : Optimisation sous Contrainte Énergétique par Apprentissage par Renforcement pour la Marche Humanoïde
ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking
February 6, 2026
papers.authors: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su
cs.AI
papers.abstract
L'obtention d'une locomotion stable et économe en énergie est essentielle pour que les robots humanoïdes puissent fonctionner en continu dans des applications réelles. Les approches existantes de MPC (Commande Prédictive) et d'Apprentissage par Renforcement (RL) reposent souvent sur des métriques liées à l'énergie intégrées dans un cadre d'optimisation multi-objectifs, ce qui nécessite un réglage extensif des hyperparamètres et aboutit souvent à des politiques sous-optimales. Pour relever ces défis, nous proposons ECO (Optimisation sous Contrainte Énergétique), un cadre de RL contraint qui sépare les métriques énergétiques des récompenses, en les reformulant comme des contraintes d'inégalité explicites. Cette méthode fournit une représentation physique claire et interprétable des coûts énergétiques, permettant un réglage des hyperparamètres plus efficace et intuitif pour une meilleure efficacité énergétique. ECO introduit des contraintes dédiées pour la consommation d'énergie et le mouvement de référence, appliquées par la méthode Lagrangienne, afin de réaliser une marche stable, symétrique et économe en énergie pour les robots humanoïdes. Nous avons évalué ECO par rapport à la MPC, au RL standard avec façonnage de récompense et à quatre méthodes de RL contraintes de l'état de l'art. Les expériences, incluant des transferts sim-to-sim et sim-to-real sur le robot humanoïde de taille enfant BRUCE, démontrent qu'ECO réduit significativement la consommation d'énergie par rapport aux méthodes de référence tout en maintenant des performances de marche robustes. Ces résultats mettent en évidence une avancée substantielle dans la locomotion éco-énergétique pour les humanoïdes. Toutes les démonstrations expérimentales sont disponibles sur le site web du projet : https://sites.google.com/view/eco-humanoid.
English
Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.