GOAT: Gehe zu Allem
GOAT: GO to Any Thing
November 10, 2023
papers.authors: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
papers.abstract
In Einsatzszenarien wie Haushalten und Lagern wird von mobilen Robotern erwartet, dass sie über längere Zeiträume autonom navigieren und Aufgaben nahtlos ausführen, die in Begriffen formuliert sind, die für menschliche Bediener intuitiv verständlich sind. Wir präsentieren GO To Any Thing (GOAT), ein universelles Navigationssystem, das diese Anforderungen mit drei Schlüsselmerkmalen bewältigen kann: a) Multimodal: Es kann Ziele verarbeiten, die über Kategorielabels, Zielbilder und Sprachbeschreibungen spezifiziert sind, b) Lebenslang: Es profitiert von seinen bisherigen Erfahrungen in der gleichen Umgebung, und c) Plattformunabhängig: Es kann schnell auf Robotern mit unterschiedlichen Ausführungen eingesetzt werden. GOAT wird durch ein modulares Systemdesign und einen kontinuierlich erweiterten, instanzbewussten semantischen Speicher ermöglicht, der das Erscheinungsbild von Objekten aus verschiedenen Blickwinkeln zusätzlich zu kategorieübergreifenden Semantiken verfolgt. Dies ermöglicht es GOAT, zwischen verschiedenen Instanzen derselben Kategorie zu unterscheiden, um die Navigation zu Zielen zu ermöglichen, die durch Bilder und Sprachbeschreibungen spezifiziert sind. In experimentellen Vergleichen über mehr als 90 Stunden in 9 verschiedenen Haushalten, bestehend aus 675 Zielen, die über 200+ verschiedene Objektinstanzen ausgewählt wurden, erreicht GOAT eine Gesamterfolgsrate von 83 % und übertrifft damit bisherige Methoden und Ablationen um 32 % (absoluter Verbesserungswert). GOAT verbessert sich mit zunehmender Erfahrung in der Umgebung, von einer Erfolgsrate von 60 % beim ersten Ziel auf 90 % nach der Exploration. Darüber hinaus zeigen wir, dass GOAT problemlos auf nachgelagerte Aufgaben wie Greifen und Platzieren sowie soziale Navigation angewendet werden kann.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.