WildLMa: Долгосрочная локо-манипуляция в дикой среде
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
Авторы: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
Аннотация
Мобильная манипуляция "в естественной среде" нацелена на развертывание роботов в разнообразных реальных средах, что требует от робота (1) обладать навыками, которые обобщаются на различные конфигурации объектов; (2) быть способным к выполнению задач с долгосрочным планом в разнообразных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого взятия и установки. Роботы на четырех ногах с манипуляторами обещают расширить рабочее пространство и обеспечить надежное передвижение, однако существующие результаты не исследуют такую возможность. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного контроллера низкого уровня для телооперации с использованием VR и проходимости; (2) WildLMa-Skill - библиотека обобщаемых визуомоторных навыков, полученных путем имитационного обучения или эвристики; и (3) WildLMa-Planner - интерфейс обученных навыков, позволяющий планировщикам LLM координировать навыки для задач с долгосрочным планом. Мы демонстрируем важность высококачественных обучающих данных, достигая более высокой успешности захвата по сравнению с существующими базовыми моделями RL, используя всего несколько демонстраций. WildLMa использует CLIP для обучения по имитации, зависящего от языка, что эмпирически обобщается на объекты, не учтенные в обучающих демонстрациях. Помимо обширной количественной оценки, мы качественно демонстрируем практические применения робота, такие как уборка мусора в коридорах университета или на открытых территориях, управление артикулированными объектами и перестановка предметов на книжной полке.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary