WildLMa: 야생에서의 장기간 지속되는 로코-조작
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
저자: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
초록
'야외' 모바일 조작은 로봇을 다양한 현실 세계 환경에 배치하는 것을 목표로 하며, 이는 로봇이 (1) 물체 구성에 걸쳐 일반화되는 기술을 갖추어야 하고, (2) 다양한 환경에서 장기적인 과제 실행이 가능해야 하며, (3) 픽 앤 플레이스를 넘어 복잡한 조작을 수행해야 합니다. 조작기를 갖춘 네 다리 로봇은 작업 공간을 확장하고 견고한 이동을 가능하게 하는 잠재력을 지니고 있지만, 기존 결과는 이러한 능력을 조사하지 않았습니다. 본 논문은 이러한 문제를 해결하기 위해 세 가지 구성 요소를 갖춘 WildLMa를 제안합니다: (1) VR을 활용한 전신 원격 조작 및 횡단성을 위한 학습된 저수준 컨트롤러의 적응; (2) WildLMa-Skill - 흉내 내기 학습 또는 휴리스틱을 통해 획득된 일반화 가능한 시각 운동 기술 라이브러리; (3) WildLMa-Planner - 학습된 기술의 인터페이스로, LLM 플래너가 장기적인 과제를 위해 기술을 조정할 수 있습니다. 우리는 수십 개의 데모만 사용하여 기존 RL 베이스라인보다 높은 그랩 성공률을 달성함으로써 고품질 훈련 데이터의 중요성을 입증합니다. WildLMa는 언어 조건부 흉내 학습을 위해 CLIP를 활용하며, 훈련 데모에서 보지 못한 물체에 대해 경험적으로 일반화됩니다. 방대한 양의 양적 평가 외에도, 우리는 대학 복도나 야외 지형에서 쓰레기를 정리하거나 관절이 있는 물체를 작동하며 책장의 물건을 재배열하는 등의 실용적인 로봇 응용을 질적으로 증명합니다.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary