ChatPaper.aiChatPaper

GOAT: Ir para Qualquer Coisa

GOAT: GO to Any Thing

November 10, 2023
Autores: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI

Resumo

Em cenários de implantação como residências e armazéns, espera-se que robôs móveis naveguem de forma autônoma por períodos prolongados, executando tarefas de maneira contínua que são articuladas em termos intuitivamente compreensíveis para operadores humanos. Apresentamos o GO To Any Thing (GOAT), um sistema de navegação universal capaz de atender a esses requisitos com três características principais: a) Multimodal: pode lidar com objetivos especificados por meio de rótulos de categoria, imagens de destino e descrições em linguagem natural, b) Contínuo: beneficia-se de sua experiência passada no mesmo ambiente, e c) Independente de Plataforma: pode ser rapidamente implantado em robôs com diferentes configurações físicas. O GOAT é viabilizado por meio de um design de sistema modular e uma memória semântica consciente de instâncias que é continuamente ampliada, mantendo o controle da aparência de objetos de diferentes pontos de vista, além de semântica em nível de categoria. Isso permite que o GOAT distinga entre diferentes instâncias da mesma categoria para possibilitar a navegação até alvos especificados por imagens e descrições em linguagem natural. Em comparações experimentais abrangendo mais de 90 horas em 9 residências diferentes, consistindo de 675 objetivos selecionados entre mais de 200 instâncias de objetos, constatamos que o GOAT alcança uma taxa de sucesso geral de 83%, superando métodos anteriores e variações em 32% (melhoria absoluta). O GOAT melhora com a experiência no ambiente, passando de uma taxa de sucesso de 60% no primeiro objetivo para 90% após a exploração. Além disso, demonstramos que o GOAT pode ser prontamente aplicado a tarefas subsequentes, como pegar e colocar e navegação social.
English
In deployment scenarios such as homes and warehouses, mobile robots are expected to autonomously navigate for extended periods, seamlessly executing tasks articulated in terms that are intuitively understandable by human operators. We present GO To Any Thing (GOAT), a universal navigation system capable of tackling these requirements with three key features: a) Multimodal: it can tackle goals specified via category labels, target images, and language descriptions, b) Lifelong: it benefits from its past experience in the same environment, and c) Platform Agnostic: it can be quickly deployed on robots with different embodiments. GOAT is made possible through a modular system design and a continually augmented instance-aware semantic memory that keeps track of the appearance of objects from different viewpoints in addition to category-level semantics. This enables GOAT to distinguish between different instances of the same category to enable navigation to targets specified by images and language descriptions. In experimental comparisons spanning over 90 hours in 9 different homes consisting of 675 goals selected across 200+ different object instances, we find GOAT achieves an overall success rate of 83%, surpassing previous methods and ablations by 32% (absolute improvement). GOAT improves with experience in the environment, from a 60% success rate at the first goal to a 90% success after exploration. In addition, we demonstrate that GOAT can readily be applied to downstream tasks such as pick and place and social navigation.
PDF162December 15, 2024