ECO: 인간형 보행을 위한 강화 학습 기반 에너지 제약 최적화
ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking
February 6, 2026
저자: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su
cs.AI
초록
안정적이고 에너지 효율적인 보행 달성은 휴머노이드 로봇이 실제 환경에서 지속적으로 작동하기 위한 필수 요소입니다. 기존의 MPC 및 RL 접근법은 다중 목적 최적화 프레임워크 내에 에너지 관련 메트릭을 포함하는 경우가 많으며, 이는 광범위한 하이퍼파라미터 조정을 필요로 하고 종종 최적이 아닌 정책을 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 에너지 관련 메트릭을 보상에서 분리하여 명시적 불평등 제약 조건으로 재구성하는 제약 RL 프레임워크인 ECO(Energy-Constrained Optimization)를 제안합니다. 이 방법은 에너지 비용에 대한 명확하고 해석 가능한 물리적 표현을 제공하여 에너지 효율 향상을 위한 더 효율적이고 직관적인 하이퍼파라미터 조정을 가능하게 합니다. ECO는 라그랑지 승수법으로 강화되는 에너지 소비 및 기준 동작에 대한 전용 제약 조건을 도입하여 휴머노이드 로봇의 안정적이고 대칭적이며 에너지 효율적인 보행을 달성합니다. ECO를 MPC, 보상 형상을 적용한 표준 RL, 그리고 4가지 최신 제약 RL 방법과 비교 평가했습니다. kid-size 휴머노이드 로봇 BRUCE를 이용한 시뮬레이션-시뮬레이션 전이 및 시뮬레이션-현실 전이 실험을 포함한 실험 결과, ECO는 견고한 보행 성능을 유지하면서 기준 방법 대비 에너지 소비를 크게 줄이는 것으로 나타났습니다. 이러한 결과는 에너지 효율적인 휴머노이드 보행 기술의 중요한 진전을 보여줍니다. 모든 실험 데모는 프로젝트 웹사이트(https://sites.google.com/view/eco-humanoid)에서 확인할 수 있습니다.
English
Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.