ChatPaper.aiChatPaper

GOAT : Aller Vers Tout Objet

GOAT: GO to Any Thing

November 10, 2023
Auteurs: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI

Résumé

Dans des scénarios de déploiement tels que les maisons et les entrepôts, les robots mobiles sont censés naviguer de manière autonome pendant de longues périodes, exécutant de manière fluide des tâches formulées en termes intuitivement compréhensibles par les opérateurs humains. Nous présentons GO To Any Thing (GOAT), un système de navigation universel capable de répondre à ces exigences grâce à trois caractéristiques clés : a) Multimodal : il peut traiter des objectifs spécifiés via des étiquettes de catégorie, des images cibles et des descriptions langagières, b) Lifelong : il tire parti de son expérience passée dans le même environnement, et c) Indépendant de la plateforme : il peut être rapidement déployé sur des robots avec différentes configurations. GOAT est rendu possible grâce à une conception modulaire du système et à une mémoire sémantique consciente des instances, continuellement enrichie, qui suit l'apparence des objets sous différents angles en plus de la sémantique au niveau de la catégorie. Cela permet à GOAT de distinguer différentes instances d'une même catégorie pour permettre la navigation vers des cibles spécifiées par des images et des descriptions langagières. Dans des comparaisons expérimentales couvrant plus de 90 heures dans 9 maisons différentes, comprenant 675 objectifs sélectionnés parmi plus de 200 instances d'objets, nous constatons que GOAT atteint un taux de réussite global de 83 %, surpassant les méthodes précédentes et les ablations de 32 % (amélioration absolue). GOAT s'améliore avec l'expérience dans l'environnement, passant d'un taux de réussite de 60 % pour le premier objectif à 90 % après exploration. De plus, nous démontrons que GOAT peut être facilement appliqué à des tâches en aval telles que la prise et le dépôt d'objets et la navigation sociale.
English
In deployment scenarios such as homes and warehouses, mobile robots are expected to autonomously navigate for extended periods, seamlessly executing tasks articulated in terms that are intuitively understandable by human operators. We present GO To Any Thing (GOAT), a universal navigation system capable of tackling these requirements with three key features: a) Multimodal: it can tackle goals specified via category labels, target images, and language descriptions, b) Lifelong: it benefits from its past experience in the same environment, and c) Platform Agnostic: it can be quickly deployed on robots with different embodiments. GOAT is made possible through a modular system design and a continually augmented instance-aware semantic memory that keeps track of the appearance of objects from different viewpoints in addition to category-level semantics. This enables GOAT to distinguish between different instances of the same category to enable navigation to targets specified by images and language descriptions. In experimental comparisons spanning over 90 hours in 9 different homes consisting of 675 goals selected across 200+ different object instances, we find GOAT achieves an overall success rate of 83%, surpassing previous methods and ablations by 32% (absolute improvement). GOAT improves with experience in the environment, from a 60% success rate at the first goal to a 90% success after exploration. In addition, we demonstrate that GOAT can readily be applied to downstream tasks such as pick and place and social navigation.
PDF162December 15, 2024