GOAT: Vai a Qualsiasi Cosa

Abstract

Negli scenari di dispiegamento come case e magazzini, si prevede che i robot mobili navigheranno in modo autonomo per periodi prolungati, eseguendo senza soluzione di continuità compiti espressi in termini intuitivamente comprensibili per gli operatori umani. Presentiamo GO To Any Thing (GOAT), un sistema di navigazione universale in grado di affrontare questi requisiti con tre caratteristiche chiave: a) Multimodale: può gestire obiettivi specificati tramite etichette di categoria, immagini target e descrizioni linguistiche, b) Lifelong: trae vantaggio dalla sua esperienza passata nello stesso ambiente, e c) Indipendente dalla piattaforma: può essere rapidamente implementato su robot con diverse configurazioni fisiche. GOAT è reso possibile grazie a un design modulare del sistema e a una memoria semantica consapevole delle istanze che viene continuamente arricchita, tenendo traccia dell'aspetto degli oggetti da diverse prospettive oltre alla semantica a livello di categoria. Ciò consente a GOAT di distinguere tra diverse istanze della stessa categoria per abilitare la navigazione verso target specificati da immagini e descrizioni linguistiche. In confronti sperimentali che coprono oltre 90 ore in 9 case diverse, comprendenti 675 obiettivi selezionati tra più di 200 istanze di oggetti, GOAT raggiunge un tasso di successo complessivo dell'83%, superando i metodi precedenti e le versioni ridotte del sistema di un miglioramento assoluto del 32%. GOAT migliora con l'esperienza nell'ambiente, passando da un tasso di successo del 60% al primo obiettivo a un tasso di successo del 90% dopo l'esplorazione. Inoltre, dimostriamo che GOAT può essere facilmente applicato a compiti successivi come il pick and place e la navigazione sociale.

English

In deployment scenarios such as homes and warehouses, mobile robots are expected to autonomously navigate for extended periods, seamlessly executing tasks articulated in terms that are intuitively understandable by human operators. We present GO To Any Thing (GOAT), a universal navigation system capable of tackling these requirements with three key features: a) Multimodal: it can tackle goals specified via category labels, target images, and language descriptions, b) Lifelong: it benefits from its past experience in the same environment, and c) Platform Agnostic: it can be quickly deployed on robots with different embodiments. GOAT is made possible through a modular system design and a continually augmented instance-aware semantic memory that keeps track of the appearance of objects from different viewpoints in addition to category-level semantics. This enables GOAT to distinguish between different instances of the same category to enable navigation to targets specified by images and language descriptions. In experimental comparisons spanning over 90 hours in 9 different homes consisting of 675 goals selected across 200+ different object instances, we find GOAT achieves an overall success rate of 83%, surpassing previous methods and ablations by 32% (absolute improvement). GOAT improves with experience in the environment, from a 60% success rate at the first goal to a 90% success after exploration. In addition, we demonstrate that GOAT can readily be applied to downstream tasks such as pick and place and social navigation.

GOAT: Vai a Qualsiasi Cosa

GOAT: GO to Any Thing

Abstract

Support