GOAT: 모든 것에 접근하기
GOAT: GO to Any Thing
November 10, 2023
저자: Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot
cs.AI
초록
가정 및 창고와 같은 배포 시나리오에서 모바일 로봇은 인간 운영자가 직관적으로 이해할 수 있는 용어로 표현된 작업을 원활하게 수행하며 장시간 동안 자율적으로 탐색할 것으로 기대됩니다. 우리는 이러한 요구 사항을 해결할 수 있는 세 가지 주요 기능을 갖춘 범용 탐색 시스템인 GO To Any Thing(GOAT)을 제시합니다: a) 멀티모달: 카테고리 레이블, 대상 이미지 및 언어 설명을 통해 지정된 목표를 처리할 수 있음, b) 평생 학습: 동일한 환경에서의 과거 경험을 활용함, c) 플랫폼 독립적: 다양한 형태의 로봇에 빠르게 배포할 수 있음. GOAT은 모듈식 시스템 설계와 카테고리 수준의 의미론뿐만 아니라 다양한 시점에서의 객체 외관을 추적하는 지속적으로 확장되는 인스턴스 인식 시맨틱 메모리를 통해 가능해졌습니다. 이를 통해 GOAT은 동일한 카테고리의 다른 인스턴스를 구별하여 이미지 및 언어 설명으로 지정된 목표로의 탐색을 가능하게 합니다. 200개 이상의 서로 다른 객체 인스턴스에서 선택된 675개의 목표로 구성된 9개의 다른 가정에서 90시간 이상의 실험적 비교에서 GOAT은 83%의 전체 성공률을 달성하여 이전 방법 및 절제 방법보다 32%(절대적 개선) 앞섰습니다. GOAT은 환경에서의 경험에 따라 개선되어 첫 번째 목표에서 60%의 성공률에서 탐색 후 90%의 성공률로 향상되었습니다. 또한, GOAT이 픽 앤 플레이스 및 사회적 탐색과 같은 하위 작업에 쉽게 적용될 수 있음을 보여줍니다.
English
In deployment scenarios such as homes and warehouses, mobile robots are
expected to autonomously navigate for extended periods, seamlessly executing
tasks articulated in terms that are intuitively understandable by human
operators. We present GO To Any Thing (GOAT), a universal navigation system
capable of tackling these requirements with three key features: a) Multimodal:
it can tackle goals specified via category labels, target images, and language
descriptions, b) Lifelong: it benefits from its past experience in the same
environment, and c) Platform Agnostic: it can be quickly deployed on robots
with different embodiments. GOAT is made possible through a modular system
design and a continually augmented instance-aware semantic memory that keeps
track of the appearance of objects from different viewpoints in addition to
category-level semantics. This enables GOAT to distinguish between different
instances of the same category to enable navigation to targets specified by
images and language descriptions. In experimental comparisons spanning over 90
hours in 9 different homes consisting of 675 goals selected across 200+
different object instances, we find GOAT achieves an overall success rate of
83%, surpassing previous methods and ablations by 32% (absolute improvement).
GOAT improves with experience in the environment, from a 60% success rate at
the first goal to a 90% success after exploration. In addition, we demonstrate
that GOAT can readily be applied to downstream tasks such as pick and place and
social navigation.