ECO: Otimização com Restrição de Energia usando Aprendizado por Reforço para Locomoção de Humanoides

Resumo

A obtenção de uma locomoção estável e energeticamente eficiente é essencial para que robôs humanoides operem continuamente em aplicações do mundo real. As abordagens existentes de MPC (Controlo Preditivo por Modelo) e RL (Aprendizagem por Reforço) frequentemente dependem de métricas relacionadas com energia incorporadas num quadro de otimização multiobjetivo, que exigem uma extensiva afinação de hiperparâmetros e frequentemente resultam em políticas subótimas. Para enfrentar estes desafios, propomos o ECO (Otimização com Restrições de Energia), um quadro de RL restrito que separa as métricas relacionadas com energia das recompensas, reformulando-as como restrições explícitas de desigualdade. Este método fornece uma representação física clara e interpretável dos custos energéticos, permitindo uma afinação de hiperparâmetros mais eficiente e intuitiva para melhorar a eficiência energética. O ECO introduz restrições dedicadas para o consumo de energia e movimento de referência, aplicadas pelo método Lagrangiano, para alcançar uma marcha estável, simétrica e energeticamente eficiente para robôs humanoides. Avaliámos o ECO em comparação com MPC, RL padrão com moldagem de recompensa e quatro métodos state-of-the-art de RL restrito. Experiências, incluindo transferências sim-para-sim e sim-para-real no robô humanoide de tamanho infantil BRUCE, demonstram que o ECO reduz significativamente o consumo de energia em comparação com os métodos de base, mantendo ao mesmo tempo um desempenho de marcha robusto. Estes resultados destacam um avanço substancial na locomoção energeticamente eficiente de humanoides. Todas as demonstrações experimentais podem ser encontradas no site do projeto: https://sites.google.com/view/eco-humanoid.

English

Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.

ECO: Otimização com Restrição de Energia usando Aprendizado por Reforço para Locomoção de Humanoides

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Resumo

Support