Behulpzame DoggyBot: Open-World Object Fetching met behulp van viervoetige robots en Visie-Taalmodellen
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
Auteurs: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
Samenvatting
Leermethoden hebben sterke prestaties behaald voor viervoetige voortbeweging. Echter, verschillende uitdagingen voorkomen dat viervoeters nuttige binnen vaardigheden leren die interactie met omgevingen en mensen vereisen: gebrek aan eind-effectoren voor manipulatie, beperkt semantisch begrip met alleen simulatiedata, en lage begaanbaarheid en bereikbaarheid in binnenomgevingen. We presenteren een systeem voor mobiele manipulatie door viervoeters in binnenomgevingen. Het maakt gebruik van een aan de voorkant gemonteerde grijper voor objectmanipulatie, een laag-niveau controller getraind in simulatie met behulp van egocentrische diepte voor behendige vaardigheden zoals klimmen en kantelen van het hele lichaam, en vooraf getrainde visie-taalmodellen (VLM's) met een fisheye derdepersoons- en een egocentrische RGB-camera voor semantisch begrip en commandogeneratie. We evalueren ons systeem in twee ongeziene omgevingen zonder enige gegevensverzameling of training in de echte wereld. Ons systeem kan zich zonder training aanpassen aan deze omgevingen en taken voltooien, zoals het opvolgen van commando's van de gebruiker om een willekeurig geplaatst knuffeldier te halen na het beklimmen van een tweepersoonsbed, met een succespercentage van 60%. Projectwebsite: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary