WildLMa : Manipulation Loco-Manuelle à Long Terme dans la Nature
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
Auteurs: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
Résumé
La manipulation mobile "dans la nature" vise à déployer des robots dans divers environnements réels, ce qui nécessite que le robot (1) possède des compétences qui se généralisent à travers différentes configurations d'objets ; (2) soit capable d'exécuter des tâches à longue portée dans des environnements variés ; et (3) effectue des manipulations complexes allant au-delà de la simple prise et dépose. Les robots quadrupèdes avec manipulateurs offrent la possibilité d'étendre l'espace de travail et de permettre une locomotion robuste, mais les résultats existants n'investiguent pas une telle capacité. Cet article propose WildLMa avec trois composants pour aborder ces problèmes : (1) adaptation d'un contrôleur bas niveau appris pour la téléopération en réalité virtuelle et la franchissabilité ; (2) WildLMa-Skill - une bibliothèque de compétences visuomotrices généralisables acquises par apprentissage par imitation ou heuristiques ; et (3) WildLMa-Planner - une interface de compétences apprises permettant aux planificateurs LLM de coordonner les compétences pour des tâches à longue portée. Nous démontrons l'importance de données d'entraînement de haute qualité en atteignant un taux de réussite de préhension plus élevé par rapport aux bases de référence RL existantes en n'utilisant que quelques démonstrations. WildLMa exploite CLIP pour l'apprentissage par imitation conditionné au langage qui se généralise empiriquement à des objets non vus dans les démonstrations d'entraînement. En plus d'une évaluation quantitative approfondie, nous démontrons qualitativement des applications robotiques pratiques, telles que le nettoyage des déchets dans les couloirs universitaires ou les terrains extérieurs, le fonctionnement d'objets articulés et le réarrangement d'objets sur une étagère.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary