ChatPaper.aiChatPaper

DoggyBot Utile: Recupero di Oggetti in un Mondo Aperto utilizzando Robot a Zampe e Modelli di Visione-Linguaggio

Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models

September 30, 2024
Autori: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI

Abstract

I metodi basati sull'apprendimento hanno ottenuto ottime prestazioni per la locomozione quadrupede. Tuttavia, diversi ostacoli impediscono ai quadrupedi di apprendere abilità utili in ambienti interni che richiedono interazione con l'ambiente e gli esseri umani: mancanza di effettori terminali per la manipolazione, limitata comprensione semantica utilizzando solo dati di simulazione e limitata capacità di attraversamento e raggiungibilità negli ambienti interni. Presentiamo un sistema per la manipolazione mobile quadrupede in ambienti interni. Esso utilizza un gripper montato frontalmente per la manipolazione degli oggetti, un controllore a basso livello addestrato in simulazione utilizzando la profondità egocentrica per abilità agili come l'arrampicata e l'inclinazione dell'intero corpo, e modelli visione-linguaggio pre-addestrati (VLM) con una telecamera fisheye in terza persona e una telecamera RGB egocentrica per la comprensione semantica e la generazione di comandi. Valutiamo il nostro sistema in due ambienti non visti senza alcuna raccolta di dati o addestramento nel mondo reale. Il nostro sistema può generalizzare a zero-shot a questi ambienti e completare compiti, come seguire i comandi dell'utente per recuperare un giocattolo casualmente posizionato dopo essere salito su un letto queen-size, con un tasso di successo del 60%. Sito web del progetto: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal locomotion. However, several challenges prevent quadrupeds from learning helpful indoor skills that require interaction with environments and humans: lack of end-effectors for manipulation, limited semantic understanding using only simulation data, and low traversability and reachability in indoor environments. We present a system for quadrupedal mobile manipulation in indoor environments. It uses a front-mounted gripper for object manipulation, a low-level controller trained in simulation using egocentric depth for agile skills like climbing and whole-body tilting, and pre-trained vision-language models (VLMs) with a third-person fisheye and an egocentric RGB camera for semantic understanding and command generation. We evaluate our system in two unseen environments without any real-world data collection or training. Our system can zero-shot generalize to these environments and complete tasks, like following user's commands to fetch a randomly placed stuff toy after climbing over a queen-sized bed, with a 60% success rate. Project website: https://helpful-doggybot.github.io/
PDF82November 13, 2024