Follow Anything: リアルタイムでのオープンセット検出、追跡、追従
Follow Anything: Open-set detection, tracking, and following in real-time
August 10, 2023
著者: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI
要旨
関心対象の物体を追跡・追従することは、産業オートメーションから物流・倉庫管理、医療・セキュリティに至るまで、さまざまなロボティクス用途において極めて重要です。本論文では、任意の物体をリアルタイムで検出・追跡・追従するロボットシステムを提案します。我々のアプローチは「フォロー・エニシング」(FAn)と名付けられており、オープン・ボキャブラリーかつマルチモーダルなモデルです。つまり、学習時に見た概念に限定されず、推論時にテキスト、画像、クリッククエリを用いて新規クラスに適用可能です。大規模事前学習モデル(ファウンデーションモデル)から得られる豊富な視覚記述子を活用することで、FAnはマルチモーダルクエリ(テキスト、画像、クリック)を入力画像シーケンスと照合し、物体を検出・セグメント化できます。これらの検出・セグメント化された物体は、オクルージョンや物体の再出現を考慮しながら、画像フレーム間で追跡されます。我々は実世界のロボットシステム(マイクロエアリアルビークル)上でFAnを実証し、リアルタイム制御ループ内で関心対象の物体をシームレスに追従できる能力を報告します。FAnは軽量(6-8GB)なグラフィックスカードを搭載したラップトップにデプロイ可能で、6-20フレーム/秒のスループットを達成します。迅速な採用・展開・拡張を可能にするため、すべてのコードをプロジェクトウェブページ(https://github.com/alaamaalouf/FollowAnything)でオープンソース化しています。また、5分間の解説動画(https://www.youtube.com/watch?v=6Mgt3EPytrw)を視聴することを読者に推奨します。
English
Tracking and following objects of interest is critical to several robotics
use cases, ranging from industrial automation to logistics and warehousing, to
healthcare and security. In this paper, we present a robotic system to detect,
track, and follow any object in real-time. Our approach, dubbed ``follow
anything'' (FAn), is an open-vocabulary and multimodal model -- it is not
restricted to concepts seen at training time and can be applied to novel
classes at inference time using text, images, or click queries. Leveraging rich
visual descriptors from large-scale pre-trained models (foundation models), FAn
can detect and segment objects by matching multimodal queries (text, images,
clicks) against an input image sequence. These detected and segmented objects
are tracked across image frames, all while accounting for occlusion and object
re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial
vehicle) and report its ability to seamlessly follow the objects of interest in
a real-time control loop. FAn can be deployed on a laptop with a lightweight
(6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To
enable rapid adoption, deployment, and extensibility, we open-source all our
code on our project webpage at https://github.com/alaamaalouf/FollowAnything .
We also encourage the reader the watch our 5-minutes explainer video in this
https://www.youtube.com/watch?v=6Mgt3EPytrw .