WildLMa: Manipulação Loco de Longo Horizonte na Natureza
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
Autores: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
Resumo
A manipulação móvel em ambientes reais, conhecida como "in-the-wild", visa implantar robôs em diversos ambientes do mundo real, o que requer que o robô (1) tenha habilidades que generalizem entre configurações de objetos; (2) seja capaz de executar tarefas de longo prazo em ambientes diversos; e (3) realize manipulações complexas além de pegar e colocar objetos. Robôs quadrúpedes com manipuladores têm o potencial de ampliar o espaço de trabalho e permitir uma locomoção robusta, mas os resultados existentes não investigam essa capacidade. Este artigo propõe o WildLMa com três componentes para abordar essas questões: (1) adaptação de um controlador de baixo nível aprendido para teleoperação de corpo inteiro habilitada para RV e capacidade de travessia; (2) WildLMa-Skill - uma biblioteca de habilidades visuomotoras generalizáveis adquiridas por meio de aprendizado por imitação ou heurísticas e (3) WildLMa-Planner - uma interface de habilidades aprendidas que permitem que planejadores de LLM coordenem habilidades para tarefas de longo prazo. Demonstramos a importância de dados de treinamento de alta qualidade ao alcançar uma taxa de sucesso de agarre mais alta em relação às referências existentes de RL usando apenas algumas demonstrações. O WildLMa explora o CLIP para aprendizado por imitação condicionado por linguagem que generaliza empiricamente para objetos não vistos nas demonstrações de treinamento. Além da extensa avaliação quantitativa, demonstramos qualitativamente aplicações práticas de robôs, como limpeza de lixo em corredores universitários ou terrenos ao ar livre, operação de objetos articulados e rearranjo de itens em uma estante.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary