GOAT: Vai a Qualsiasi Cosa
GOAT: GO to Any Thing
November 10, 2023
Autori: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
Abstract
Negli scenari di dispiegamento come case e magazzini, si prevede che i robot mobili navigheranno in modo autonomo per periodi prolungati, eseguendo senza soluzione di continuità compiti espressi in termini intuitivamente comprensibili per gli operatori umani. Presentiamo GO To Any Thing (GOAT), un sistema di navigazione universale in grado di affrontare questi requisiti con tre caratteristiche chiave: a) Multimodale: può gestire obiettivi specificati tramite etichette di categoria, immagini target e descrizioni linguistiche, b) Lifelong: trae vantaggio dalla sua esperienza passata nello stesso ambiente, e c) Indipendente dalla piattaforma: può essere rapidamente implementato su robot con diverse configurazioni fisiche. GOAT è reso possibile grazie a un design modulare del sistema e a una memoria semantica consapevole delle istanze che viene continuamente arricchita, tenendo traccia dell'aspetto degli oggetti da diverse prospettive oltre alla semantica a livello di categoria. Ciò consente a GOAT di distinguere tra diverse istanze della stessa categoria per abilitare la navigazione verso target specificati da immagini e descrizioni linguistiche. In confronti sperimentali che coprono oltre 90 ore in 9 case diverse, comprendenti 675 obiettivi selezionati tra più di 200 istanze di oggetti, GOAT raggiunge un tasso di successo complessivo dell'83%, superando i metodi precedenti e le versioni ridotte del sistema di un miglioramento assoluto del 32%. GOAT migliora con l'esperienza nell'ambiente, passando da un tasso di successo del 60% al primo obiettivo a un tasso di successo del 90% dopo l'esplorazione. Inoltre, dimostriamo che GOAT può essere facilmente applicato a compiti successivi come il pick and place e la navigazione sociale.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.