SkillBlender: 스킬 블렌딩을 통한 다목적 휴머노이드 전신 이동-조작 기술
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending
June 11, 2025
저자: Yuxuan Kuang, Haoran Geng, Amine Elhafsi, Tan-Dzung Do, Pieter Abbeel, Jitendra Malik, Marco Pavone, Yue Wang
cs.AI
초록
휴머노이드 로봇은 인간과 유사한 형태와 유연성 덕분에 다양한 환경에서 일상적인 작업을 수행하는 데 상당한 잠재력을 지니고 있습니다. 최근 연구들은 최적 제어나 강화 학습을 활용하여 휴머노이드 전신 제어 및 이동-조작(loco-manipulation) 분야에서 상당한 진전을 이루었습니다. 그러나 이러한 방법들은 각 작업에 대해 만족스러운 행동을 달성하기 위해 지루한 작업별 튜닝을 필요로 하며, 이는 일상 시나리오에서 다양한 작업에 대한 다용성과 확장성을 제한합니다. 이를 위해 우리는 다용도 휴머노이드 이동-조작을 위한 새로운 계층적 강화 학습 프레임워크인 SkillBlender를 소개합니다. SkillBlender는 먼저 목표 조건에 따라 작업에 구애받지 않는 기본 스킬들을 사전 학습한 후, 이러한 스킬들을 동적으로 혼합하여 복잡한 이동-조작 작업을 최소한의 작업별 보상 설계로 수행합니다. 또한, 우리는 세 가지 구현체, 네 가지 기본 스킬, 그리고 여덟 가지 도전적인 이동-조작 작업을 포함하며 정확성과 실현 가능성을 균형 있게 평가하는 과학적 평가 지표를 갖춘 SkillBench라는 병렬적, 교차 구현체, 다양한 시뮬레이션 벤치마크를 소개합니다. 광범위한 시뮬레이션 실험을 통해 우리의 방법이 모든 기준선을 크게 능가하며, 보장 해킹을 피하기 위해 행동을 자연스럽게 규제함으로써 일상 시나리오에서 다양한 이동-조작 작업에 대해 더 정확하고 실현 가능한 움직임을 달성함을 보여줍니다. 우리의 코드와 벤치마크는 향후 연구를 촉진하기 위해 커뮤니티에 공개될 것입니다. 프로젝트 페이지: https://usc-gvl.github.io/SkillBlender-web/.
English
Humanoid robots hold significant potential in accomplishing daily tasks
across diverse environments thanks to their flexibility and human-like
morphology. Recent works have made significant progress in humanoid whole-body
control and loco-manipulation leveraging optimal control or reinforcement
learning. However, these methods require tedious task-specific tuning for each
task to achieve satisfactory behaviors, limiting their versatility and
scalability to diverse tasks in daily scenarios. To that end, we introduce
SkillBlender, a novel hierarchical reinforcement learning framework for
versatile humanoid loco-manipulation. SkillBlender first pretrains
goal-conditioned task-agnostic primitive skills, and then dynamically blends
these skills to accomplish complex loco-manipulation tasks with minimal
task-specific reward engineering. We also introduce SkillBench, a parallel,
cross-embodiment, and diverse simulated benchmark containing three embodiments,
four primitive skills, and eight challenging loco-manipulation tasks,
accompanied by a set of scientific evaluation metrics balancing accuracy and
feasibility. Extensive simulated experiments show that our method significantly
outperforms all baselines, while naturally regularizing behaviors to avoid
reward hacking, resulting in more accurate and feasible movements for diverse
loco-manipulation tasks in our daily scenarios. Our code and benchmark will be
open-sourced to the community to facilitate future research. Project page:
https://usc-gvl.github.io/SkillBlender-web/.