GOAT: GA naar Alles
GOAT: GO to Any Thing
November 10, 2023
Auteurs: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
Samenvatting
In inzetscenario's zoals woningen en magazijnen wordt van mobiele robots verwacht dat ze gedurende langere perioden autonoom kunnen navigeren en taken naadloos uitvoeren die zijn geformuleerd in termen die intuïtief begrijpelijk zijn voor menselijke operators. Wij presenteren GO To Any Thing (GOAT), een universeel navigatiesysteem dat aan deze vereisten kan voldoen met drie belangrijke kenmerken: a) Multimodaal: het kan doelen aanpakken die zijn gespecificeerd via categorielabels, doelafbeeldingen en taalbeschrijvingen, b) Levenslang: het profiteert van eerdere ervaringen in dezelfde omgeving, en c) Platformonafhankelijk: het kan snel worden ingezet op robots met verschillende verschijningsvormen. GOAT wordt mogelijk gemaakt door een modulair systeemontwerp en een continu uitgebreid instantiebewust semantisch geheugen dat niet alleen de verschijning van objecten vanuit verschillende gezichtspunten bijhoudt, maar ook semantiek op categorieniveau. Hierdoor kan GOAT onderscheid maken tussen verschillende instanties van dezelfde categorie om navigatie naar doelen die zijn gespecificeerd door afbeeldingen en taalbeschrijvingen mogelijk te maken. In experimentele vergelijkingen die meer dan 90 uur beslaan in 9 verschillende woningen, bestaande uit 675 doelen geselecteerd uit meer dan 200 verschillende objectinstanties, blijkt dat GOAT een algeheel slagingspercentage van 83% behaalt, wat 32% (absolute verbetering) hoger is dan eerdere methoden en ablatie-experimenten. GOAT verbetert met ervaring in de omgeving, van een slagingspercentage van 60% bij het eerste doel tot 90% na exploratie. Daarnaast tonen we aan dat GOAT gemakkelijk kan worden toegepast op downstreamtaken zoals pick and place en sociale navigatie.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.