ECO: Optimización con Restricciones Energéticas mediante Aprendizaje por Refuerzo para la Marcha de Humanoides
ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking
February 6, 2026
Autores: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su
cs.AI
Resumen
Lograr una locomoción estable y energéticamente eficiente es esencial para que los robots humanoides operen de forma continua en aplicaciones del mundo real. Los enfoques existentes de MPC (Control Predictivo por Modelos) y RL (Aprendizaje por Refuerzo) a menudo dependen de métricas relacionadas con la energía integradas en un marco de optimización multiobjetivo, lo que requiere un extenso ajuste de hiperparámetros y a menudo da lugar a políticas subóptimas. Para abordar estos desafíos, proponemos ECO (Optimización con Restricciones de Energía), un marco de RL restringido que separa las métricas relacionadas con la energía de las recompensas, reformulándolas como restricciones explícitas de desigualdad. Este método proporciona una representación física clara e interpretable de los costes energéticos, permitiendo un ajuste de hiperparámetros más eficiente e intuitivo para mejorar la eficiencia energética. ECO introduce restricciones dedicadas para el consumo de energía y el movimiento de referencia, aplicadas mediante el método Lagrangiano, para lograr una marcha estable, simétrica y energéticamente eficiente para robots humanoides. Evaluamos ECO comparándolo con MPC, RL estándar con moldeado de recompensas y cuatro métodos de RL restringido de vanguardia. Los experimentos, que incluyen transferencias sim-a-sim y sim-a-real en el robot humanoide de tamaño infantil BRUCE, demuestran que ECO reduce significativamente el consumo de energía en comparación con los métodos de referencia, manteniendo al mismo tiempo un rendimiento de marcha robusto. Estos resultados destacan un avance sustancial en la locomoción eficiente de humanoides. Todas las demostraciones experimentales pueden encontrarse en el sitio web del proyecto: https://sites.google.com/view/eco-humanoid.
English
Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.