ECO: Energiebeperkte Optimalisatie met Reinforcement Learning voor Humanoïde Loopbewegingen

Samenvatting

Het bereiken van stabiele en energie-efficiënte voortbeweging is essentieel voor humanoïde robots om continu in real-world toepassingen te kunnen functioneren. Bestaande MPC- en RL-benaderingen baseren zich vaak op energiegerelateerde metrieken die zijn ingebed in een multi-objectief optimalisatiekader, wat uitgebreide afstemming van hyperparameters vereist en vaak leidt tot suboptimale policies. Om deze uitdagingen aan te pakken, stellen we ECO (Energy-Constrained Optimization) voor, een constrained RL-kader dat energiegerelateerde metrieken scheidt van beloningen en ze herformuleert als expliciete ongelijkheidsbeperkingen. Deze methode biedt een duidelijke en interpreteerbare fysieke representatie van energiekosten, waardoor efficiëntere en intuïtievere afstemming van hyperparameters mogelijk wordt voor verbeterde energie-efficiëntie. ECO introduceert toegewijde beperkingen voor energieverbruik en referentiebeweging, afgedwongen door de Lagrangiaanse methode, om stabiel, symmetrisch en energie-efficiënt lopen voor humanoïde robots te realiseren. We evalueerden ECO tegenover MPC, standaard RL met reward shaping, en vier geavanceerde constrained RL-methoden. Experimenten, inclusief sim-to-sim en sim-to-real transfers op de kindermaat humanoïde robot BRUCE, tonen aan dat ECO het energieverbruik significant verlaagt in vergelijking met de baseline-methoden, terwijl robuuste loopprestaties behouden blijven. Deze resultaten markeren een aanzienlijke vooruitgang in energie-efficiënte humanoïde voortbeweging. Alle experimentele demonstraties zijn te vinden op de projectwebsite: https://sites.google.com/view/eco-humanoid.

English

Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.

ECO: Energiebeperkte Optimalisatie met Reinforcement Learning voor Humanoïde Loopbewegingen

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Samenvatting

Support