ECO: Ottimizzazione Vincolata Energeticamente con Apprendimento per Rinforzo per la Camminata di Robot Umanoidi

Abstract

Il raggiungimento di una locomozione stabile ed energeticamente efficiente è essenziale affinché i robot umanoidi possano operare in modo continuativo in applicazioni del mondo reale. Gli approcci esistenti di MPC (Model Predictive Control) e RL (Reinforcement Learning) si basano spesso su metriche legate all'energia integrate in un framework di ottimizzazione multi-obiettivo, che richiedono un'ampia ottimizzazione degli iperparametri e spesso portano a politiche subottimali. Per affrontare queste sfide, proponiamo ECO (Energy-Constrained Optimization), un framework di RL vincolato che separa le metriche energetiche dalle ricompense, riformulandole come vincoli di disuguaglianza espliciti. Questo metodo fornisce una rappresentazione fisica chiara e interpretabile dei costi energetici, consentendo una regolazione degli iperparametri più efficiente e intuitiva per migliorare l'efficienza energetica. ECO introduce vincoli dedicati per il consumo energetico e il movimento di riferimento, applicati tramite il metodo Lagrangiano, per ottenere una camminata stabile, simmetrica ed energeticamente efficiente per robot umanoidi. Abbiamo valutato ECO confrontandolo con MPC, RL standard con modellazione delle ricompense (reward shaping) e quattro metodi all'avanguardia di RL vincolato. Esperimenti, inclusi trasferimenti sim-to-sim e sim-to-real sul robot umanoide BRUCE di dimensioni ridotte, dimostrano che ECO riduce significativamente il consumo energetico rispetto ai baseline, mantenendo al contempo prestazioni di camminata robuste. Questi risultati evidenziano un progresso sostanziale nella locomozione efficiente per robot umanoidi. Tutte le dimostrazioni sperimentali sono disponibili sul sito web del progetto: https://sites.google.com/view/eco-humanoid.

English

Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.

ECO: Ottimizzazione Vincolata Energeticamente con Apprendimento per Rinforzo per la Camminata di Robot Umanoidi

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Abstract

Support