Hilfreicher DoggyBot: Objektsuche in offenen Welten mit vierbeinigen Robotern und Vision-Sprach-Modellen
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
Autoren: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
Zusammenfassung
Lernbasierte Methoden haben eine starke Leistung bei der quadrupedalen Fortbewegung erzielt. Allerdings verhindern mehrere Herausforderungen, dass Quadrupeden hilfreiche Innenfertigkeiten erlernen, die eine Interaktion mit Umgebungen und Menschen erfordern: Mangel an Endeffektoren für Manipulation, begrenztes semantisches Verständnis, das nur Simulationdaten verwendet, sowie geringe Durchquerbarkeit und Erreichbarkeit in Innenräumen. Wir stellen ein System für die quadrupedale mobile Manipulation in Innenräumen vor. Es verwendet einen vorn montierten Greifer für Objektmanipulation, einen auf Simulation trainierten Niedrigpegelregler unter Verwendung von egokentrischer Tiefe für agile Fähigkeiten wie Klettern und Ganzkörperverschiebung sowie vorab trainierte Bildsprachmodelle (VLMs) mit einer dritten Person Fischaugen- und einer egokentrischen RGB-Kamera für semantisches Verständnis und Befehlsgenerierung. Wir evaluieren unser System in zwei unbekannten Umgebungen ohne jegliche Datensammlung oder Training in der realen Welt. Unser System kann zero-shot generalisieren auf diese Umgebungen und Aufgaben abschließen, wie dem Befolgen von Benutzerbefehlen, um ein zufällig platziertes Stofftier nach dem Überklettern eines Queensize-Bettes zu holen, mit einer Erfolgsrate von 60%. Projekthomepage: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary