GOAT: Переход к чему угодно
GOAT: GO to Any Thing
November 10, 2023
Авторы: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
Аннотация
В сценариях развертывания, таких как дома и склады, от мобильных роботов ожидается способность автономно перемещаться в течение длительных периодов времени, выполняя задачи, сформулированные в терминах, интуитивно понятных для операторов-людей. Мы представляем универсальную систему навигации GO To Any Thing (GOAT), которая способна решать эти задачи благодаря трем ключевым особенностям: а) Мультимодальность: она может работать с целями, заданными через категориальные метки, целевые изображения и текстовые описания; б) Долговременность: она использует прошлый опыт в той же среде; в) Независимость от платформы: она может быть быстро развернута на роботах с различными конструкциями. GOAT реализована благодаря модульной архитектуре системы и постоянно пополняемой семантической памяти, учитывающей конкретные экземпляры объектов, которая отслеживает внешний вид объектов с разных точек зрения в дополнение к семантике на уровне категорий. Это позволяет GOAT различать разные экземпляры одной категории для навигации к целям, заданным изображениями и текстовыми описаниями. В экспериментальных сравнениях, охватывающих более 90 часов в 9 различных домах с 675 целями, выбранными среди более чем 200 различных экземпляров объектов, GOAT достигает общего уровня успеха в 83%, превосходя предыдущие методы и упрощенные версии на 32% (абсолютное улучшение). GOAT улучшает свои показатели с накоплением опыта в среде: от 60% успеха на первой цели до 90% успеха после исследования. Кроме того, мы демонстрируем, что GOAT может быть легко применена для таких задач, как захват и перемещение объектов, а также социальная навигация.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.