WildLMa: Manipulación Loco-Manipulativa a Largo Plazo en Entornos Naturales
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
Autores: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
Resumen
La manipulación móvil 'en entornos naturales' tiene como objetivo desplegar robots en diversos entornos del mundo real, lo que requiere que el robot (1) tenga habilidades que se generalicen a través de configuraciones de objetos; (2) sea capaz de ejecutar tareas a largo plazo en entornos diversos; y (3) realice manipulaciones complejas más allá de recoger y colocar objetos. Los robots cuadrúpedos con manipuladores prometen extender el espacio de trabajo y permitir una locomoción robusta, pero los resultados existentes no investigan tal capacidad. Este artículo propone WildLMa con tres componentes para abordar estos problemas: (1) adaptación de un controlador de bajo nivel aprendido para teleoperación de cuerpo completo habilitada para RV y capacidad de atravesar terrenos; (2) WildLMa-Skill: una biblioteca de habilidades visuomotoras generalizables adquiridas mediante aprendizaje por imitación o heurísticas y (3) WildLMa-Planner: una interfaz de habilidades aprendidas que permiten a los planificadores de LLM coordinar habilidades para tareas a largo plazo. Demostramos la importancia de los datos de entrenamiento de alta calidad al lograr una tasa de éxito de agarre más alta que las líneas base de RL existentes utilizando solo decenas de demostraciones. WildLMa aprovecha CLIP para el aprendizaje por imitación condicionado por lenguaje que generaliza empíricamente a objetos no vistos en las demostraciones de entrenamiento. Además de una extensa evaluación cuantitativa, demostramos cualitativamente aplicaciones prácticas de robots, como limpiar la basura en pasillos universitarios o terrenos al aire libre, operar objetos articulados y reorganizar elementos en una estantería.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary