GOAT: GA naar Alles

Samenvatting

In inzetscenario's zoals woningen en magazijnen wordt van mobiele robots verwacht dat ze gedurende langere perioden autonoom kunnen navigeren en taken naadloos uitvoeren die zijn geformuleerd in termen die intuïtief begrijpelijk zijn voor menselijke operators. Wij presenteren GO To Any Thing (GOAT), een universeel navigatiesysteem dat aan deze vereisten kan voldoen met drie belangrijke kenmerken: a) Multimodaal: het kan doelen aanpakken die zijn gespecificeerd via categorielabels, doelafbeeldingen en taalbeschrijvingen, b) Levenslang: het profiteert van eerdere ervaringen in dezelfde omgeving, en c) Platformonafhankelijk: het kan snel worden ingezet op robots met verschillende verschijningsvormen. GOAT wordt mogelijk gemaakt door een modulair systeemontwerp en een continu uitgebreid instantiebewust semantisch geheugen dat niet alleen de verschijning van objecten vanuit verschillende gezichtspunten bijhoudt, maar ook semantiek op categorieniveau. Hierdoor kan GOAT onderscheid maken tussen verschillende instanties van dezelfde categorie om navigatie naar doelen die zijn gespecificeerd door afbeeldingen en taalbeschrijvingen mogelijk te maken. In experimentele vergelijkingen die meer dan 90 uur beslaan in 9 verschillende woningen, bestaande uit 675 doelen geselecteerd uit meer dan 200 verschillende objectinstanties, blijkt dat GOAT een algeheel slagingspercentage van 83% behaalt, wat 32% (absolute verbetering) hoger is dan eerdere methoden en ablatie-experimenten. GOAT verbetert met ervaring in de omgeving, van een slagingspercentage van 60% bij het eerste doel tot 90% na exploratie. Daarnaast tonen we aan dat GOAT gemakkelijk kan worden toegepast op downstreamtaken zoals pick and place en sociale navigatie.

English

In deployment scenarios such as homes and warehouses, mobile robots are expected to autonomously navigate for extended periods, seamlessly executing tasks articulated in terms that are intuitively understandable by human operators. We present GO To Any Thing (GOAT), a universal navigation system capable of tackling these requirements with three key features: a) Multimodal: it can tackle goals specified via category labels, target images, and language descriptions, b) Lifelong: it benefits from its past experience in the same environment, and c) Platform Agnostic: it can be quickly deployed on robots with different embodiments. GOAT is made possible through a modular system design and a continually augmented instance-aware semantic memory that keeps track of the appearance of objects from different viewpoints in addition to category-level semantics. This enables GOAT to distinguish between different instances of the same category to enable navigation to targets specified by images and language descriptions. In experimental comparisons spanning over 90 hours in 9 different homes consisting of 675 goals selected across 200+ different object instances, we find GOAT achieves an overall success rate of 83%, surpassing previous methods and ablations by 32% (absolute improvement). GOAT improves with experience in the environment, from a 60% success rate at the first goal to a 90% success after exploration. In addition, we demonstrate that GOAT can readily be applied to downstream tasks such as pick and place and social navigation.

GOAT: GA naar Alles

GOAT: GO to Any Thing

Samenvatting

Support