Follow Anything: 실시간 오픈셋 탐지, 추적 및 추적 시스템
Follow Anything: Open-set detection, tracking, and following in real-time
August 10, 2023
저자: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI
초록
관심 대상 물체를 추적하고 따라가는 것은 산업 자동화부터 물류 및 창고 관리, 헬스케어 및 보안에 이르기까지 여러 로봇 공학 사용 사례에서 매우 중요합니다. 본 논문에서는 실시간으로 모든 물체를 감지, 추적, 따라갈 수 있는 로봇 시스템을 제시합니다. 우리의 접근 방식은 "팔로우 애니띵(FAn)"이라고 불리며, 오픈 보커블러리 및 멀티모달 모델입니다. 이 모델은 학습 시점에 본 개념에 제한되지 않고, 추론 시점에 텍스트, 이미지 또는 클릭 쿼리를 사용하여 새로운 클래스에 적용할 수 있습니다. 대규모 사전 학습 모델(파운데이션 모델)에서 얻은 풍부한 시각적 디스크립터를 활용하여, FAn은 멀티모달 쿼리(텍스트, 이미지, 클릭)를 입력 이미지 시퀀스와 매칭하여 물체를 감지하고 분할할 수 있습니다. 이러한 감지 및 분할된 물체는 이미지 프레임 간에 추적되며, 가림 현상과 물체 재등장을 모두 고려합니다. 우리는 실제 로봇 시스템(마이크로 에어리얼 비히클)에서 FAn을 시연하고, 실시간 제어 루프에서 관심 대상 물체를 원활하게 따라가는 능력을 보고합니다. FAn은 경량(6-8GB) 그래픽 카드가 장착된 노트북에 배포될 수 있으며, 초당 6-20 프레임의 처리량을 달성합니다. 빠른 채택, 배포 및 확장성을 가능하게 하기 위해, 우리는 모든 코드를 프로젝트 웹페이지(https://github.com/alaamaalouf/FollowAnything)에 오픈소스로 공개합니다. 또한 독자들에게 5분 설명 동영상(https://www.youtube.com/watch?v=6Mgt3EPytrw)을 시청할 것을 권장합니다.
English
Tracking and following objects of interest is critical to several robotics
use cases, ranging from industrial automation to logistics and warehousing, to
healthcare and security. In this paper, we present a robotic system to detect,
track, and follow any object in real-time. Our approach, dubbed ``follow
anything'' (FAn), is an open-vocabulary and multimodal model -- it is not
restricted to concepts seen at training time and can be applied to novel
classes at inference time using text, images, or click queries. Leveraging rich
visual descriptors from large-scale pre-trained models (foundation models), FAn
can detect and segment objects by matching multimodal queries (text, images,
clicks) against an input image sequence. These detected and segmented objects
are tracked across image frames, all while accounting for occlusion and object
re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial
vehicle) and report its ability to seamlessly follow the objects of interest in
a real-time control loop. FAn can be deployed on a laptop with a lightweight
(6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To
enable rapid adoption, deployment, and extensibility, we open-source all our
code on our project webpage at https://github.com/alaamaalouf/FollowAnything .
We also encourage the reader the watch our 5-minutes explainer video in this
https://www.youtube.com/watch?v=6Mgt3EPytrw .