ChienBot Utile : Récupération d'Objets en Monde Ouvert en Utilisant des Robots Quadrupèdes et des Modèles Vision-Langage
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
Auteurs: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
Résumé
Les méthodes basées sur l'apprentissage ont atteint de hautes performances pour la locomotion quadrupède. Cependant, plusieurs défis empêchent les quadrupèdes d'apprendre des compétences utiles en intérieur qui nécessitent une interaction avec les environnements et les humains : le manque d'effecteurs finaux pour la manipulation, une compréhension sémantique limitée utilisant uniquement des données de simulation, et une faible traversabilité et accessibilité dans les environnements intérieurs. Nous présentons un système pour la manipulation mobile quadrupède en intérieur. Il utilise une pince montée à l'avant pour la manipulation d'objets, un contrôleur de bas niveau entraîné en simulation en utilisant la profondeur égocentrique pour des compétences agiles telles que l'escalade et l'inclinaison du corps entier, ainsi que des modèles vision-langage pré-entraînés (VLM) avec une caméra fisheye à la troisième personne et une caméra RGB égocentrique pour la compréhension sémantique et la génération de commandes. Nous évaluons notre système dans deux environnements inconnus sans aucune collecte de données ou entraînement dans le monde réel. Notre système peut généraliser sans entraînement à ces environnements et accomplir des tâches, comme suivre les commandes de l'utilisateur pour aller chercher un jouet placé aléatoirement après avoir escaladé un lit queen-size, avec un taux de réussite de 60%. Site web du projet : https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary