SkillBlender: К универсальной локомоционно-манипуляционной деятельности гуманоидных роботов через объединение навыков
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending
June 11, 2025
Авторы: Yuxuan Kuang, Haoran Geng, Amine Elhafsi, Tan-Dzung Do, Pieter Abbeel, Jitendra Malik, Marco Pavone, Yue Wang
cs.AI
Аннотация
Гуманоидные роботы обладают значительным потенциалом для выполнения повседневных задач в различных средах благодаря своей гибкости и антропоморфной морфологии. Последние исследования достигли существенного прогресса в управлении всем телом гуманоидных роботов и в задачах локомоции и манипуляции, используя методы оптимального управления или обучения с подкреплением. Однако эти методы требуют трудоемкой настройки для каждой конкретной задачи, чтобы достичь удовлетворительного поведения, что ограничивает их универсальность и масштабируемость для разнообразных задач в повседневных сценариях. В связи с этим мы представляем SkillBlender — новый иерархический фреймворк обучения с подкреплением для универсальной локомоции и манипуляции гуманоидных роботов. SkillBlender сначала предварительно обучает примитивные навыки, не зависящие от конкретной задачи, но ориентированные на достижение цели, а затем динамически комбинирует эти навыки для выполнения сложных задач локомоции и манипуляции с минимальной необходимостью в специфической настройке вознаграждений. Мы также представляем SkillBench — параллельный, кросс-эмбодиментный и разнообразный симуляционный бенчмарк, включающий три эмбодимента, четыре примитивных навыка и восемь сложных задач локомоции и манипуляции, сопровождаемый набором научных метрик оценки, балансирующих точность и выполнимость. Многочисленные симуляционные эксперименты показывают, что наш метод значительно превосходит все базовые подходы, одновременно естественным образом регулируя поведение, чтобы избежать "взлома вознаграждения", что приводит к более точным и выполнимым движениям для разнообразных задач локомоции и манипуляции в повседневных сценариях. Наш код и бенчмарк будут открыты для сообщества, чтобы способствовать дальнейшим исследованиям. Страница проекта: https://usc-gvl.github.io/SkillBlender-web/.
English
Humanoid robots hold significant potential in accomplishing daily tasks
across diverse environments thanks to their flexibility and human-like
morphology. Recent works have made significant progress in humanoid whole-body
control and loco-manipulation leveraging optimal control or reinforcement
learning. However, these methods require tedious task-specific tuning for each
task to achieve satisfactory behaviors, limiting their versatility and
scalability to diverse tasks in daily scenarios. To that end, we introduce
SkillBlender, a novel hierarchical reinforcement learning framework for
versatile humanoid loco-manipulation. SkillBlender first pretrains
goal-conditioned task-agnostic primitive skills, and then dynamically blends
these skills to accomplish complex loco-manipulation tasks with minimal
task-specific reward engineering. We also introduce SkillBench, a parallel,
cross-embodiment, and diverse simulated benchmark containing three embodiments,
four primitive skills, and eight challenging loco-manipulation tasks,
accompanied by a set of scientific evaluation metrics balancing accuracy and
feasibility. Extensive simulated experiments show that our method significantly
outperforms all baselines, while naturally regularizing behaviors to avoid
reward hacking, resulting in more accurate and feasible movements for diverse
loco-manipulation tasks in our daily scenarios. Our code and benchmark will be
open-sourced to the community to facilitate future research. Project page:
https://usc-gvl.github.io/SkillBlender-web/.