GOAT: Ir a Cualquier Cosa
GOAT: GO to Any Thing
November 10, 2023
Autores: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
Resumen
En escenarios de implementación como hogares y almacenes, se espera que los robots móviles naveguen de manera autónoma durante períodos prolongados, ejecutando tareas de forma fluida que se expresan en términos intuitivamente comprensibles para los operadores humanos. Presentamos GO To Any Thing (GOAT), un sistema de navegación universal capaz de abordar estos requisitos con tres características clave: a) Multimodal: puede manejar objetivos especificados mediante etiquetas de categoría, imágenes objetivo y descripciones en lenguaje natural, b) De larga duración: se beneficia de su experiencia previa en el mismo entorno, y c) Independiente de la plataforma: puede implementarse rápidamente en robots con diferentes configuraciones físicas. GOAT es posible gracias a un diseño de sistema modular y una memoria semántica consciente de instancias que se amplía continuamente, la cual registra la apariencia de objetos desde diferentes perspectivas, además de la semántica a nivel de categoría. Esto permite a GOAT distinguir entre diferentes instancias de la misma categoría para facilitar la navegación hacia objetivos especificados por imágenes y descripciones en lenguaje natural. En comparaciones experimentales que abarcan más de 90 horas en 9 hogares diferentes, con 675 objetivos seleccionados entre más de 200 instancias de objetos, encontramos que GOAT logra una tasa de éxito general del 83%, superando métodos anteriores y variantes en un 32% (mejora absoluta). GOAT mejora con la experiencia en el entorno, pasando de una tasa de éxito del 60% en el primer objetivo a un 90% después de la exploración. Además, demostramos que GOAT puede aplicarse fácilmente a tareas posteriores como recoger y colocar objetos, así como a la navegación social.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.