ChatPaper.aiChatPaper

ECO: Оптимизация с ограничениями по энергии с использованием обучения с подкреплением для ходьбы гуманоидных роботов

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

February 6, 2026
Авторы: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su
cs.AI

Аннотация

Достижение стабильной и энергоэффективной локомоции является ключевым условием для продолжительной работы гуманоидных роботов в реальных условиях. Существующие подходы, такие как MPC и обучение с подкреплением (RL), часто опираются на энергетические метрики, встроенные в рамки многокритериальной оптимизации, что требует трудоемкой настройки гиперпараметров и зачастую приводит к субоптимальным политикам. Для решения этих проблем мы предлагаем ECO (Energy-Constrained Optimization) — ограничительный RL-фреймворк, который выносит энергетические метрики за пределы функции вознаграждения, переформулируя их в виде явных ограничений-неравенств. Данный метод обеспечивает четкое и интерпретируемое физическое представление энергетических затрат, позволяя проводить более эффективную и интуитивно понятную настройку гиперпараметров для повышения энергоэффективности. ECO вводит специализированные ограничения на энергопотребление и опорное движение, обеспечиваемые методом Лагранжа, для достижения стабильной, симметричной и энергоэффективной походки гуманоидных роботов. Мы провели сравнительную оценку ECO с методами MPC, стандартным RL с формированием вознаграждения и четырьмя современными ограничительными RL-методами. Эксперименты, включая перенос из симуляции в симуляцию и из симуляции в реальность на гуманоидном роботе детского размера BRUCE, демонстрируют, что ECO существенно снижает энергопотребление по сравнению с базовыми методами, сохраняя при этом надежность ходьбы. Эти результаты подчеркивают значительный прогресс в области энергоэффективной локомоции гуманоидных роботов. Все экспериментальные демонстрации доступны на сайте проекта: https://sites.google.com/view/eco-humanoid.
English
Achieving stable and energy-efficient locomotion is essential for humanoid robots to operate continuously in real-world applications. Existing MPC and RL approaches often rely on energy-related metrics embedded within a multi-objective optimization framework, which require extensive hyperparameter tuning and often result in suboptimal policies. To address these challenges, we propose ECO (Energy-Constrained Optimization), a constrained RL framework that separates energy-related metrics from rewards, reformulating them as explicit inequality constraints. This method provides a clear and interpretable physical representation of energy costs, enabling more efficient and intuitive hyperparameter tuning for improved energy efficiency. ECO introduces dedicated constraints for energy consumption and reference motion, enforced by the Lagrangian method, to achieve stable, symmetric, and energy-efficient walking for humanoid robots. We evaluated ECO against MPC, standard RL with reward shaping, and four state-of-the-art constrained RL methods. Experiments, including sim-to-sim and sim-to-real transfers on the kid-sized humanoid robot BRUCE, demonstrate that ECO significantly reduces energy consumption compared to baselines while maintaining robust walking performance. These results highlight a substantial advancement in energy-efficient humanoid locomotion. All experimental demonstrations can be found on the project website: https://sites.google.com/view/eco-humanoid.
PDF32February 11, 2026