Follow Anything : Détection, suivi et poursuite en temps réel dans un contexte ouvert
Follow Anything: Open-set detection, tracking, and following in real-time
August 10, 2023
Auteurs: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI
Résumé
Le suivi et la poursuite d'objets d'intérêt sont essentiels pour plusieurs cas d'utilisation en robotique, allant de l'automatisation industrielle à la logistique et à l'entreposage, en passant par la santé et la sécurité. Dans cet article, nous présentons un système robotique capable de détecter, suivre et poursuivre en temps réel n'importe quel objet. Notre approche, baptisée « follow anything » (FAn), est un modèle multimodal et à vocabulaire ouvert — elle n'est pas limitée aux concepts vus lors de l'entraînement et peut être appliquée à de nouvelles classes au moment de l'inférence en utilisant des requêtes textuelles, visuelles ou par clic. En exploitant des descripteurs visuels riches issus de modèles pré-entraînés à grande échelle (modèles de base), FAn peut détecter et segmenter des objets en faisant correspondre des requêtes multimodales (texte, images, clics) à une séquence d'images d'entrée. Ces objets détectés et segmentés sont suivis à travers les images, tout en tenant compte des occlusions et des réapparitions d'objets. Nous démontrons FAn sur un système robotique réel (un véhicule aérien micro) et rapportons sa capacité à suivre de manière fluide les objets d'intérêt dans une boucle de contrôle en temps réel. FAn peut être déployé sur un ordinateur portable équipé d'une carte graphique légère (6-8 Go), atteignant un débit de 6 à 20 images par seconde. Pour favoriser une adoption rapide, un déploiement aisé et une extensibilité, nous mettons en open source tout notre code sur la page web de notre projet à l'adresse https://github.com/alaamaalouf/FollowAnything. Nous encourageons également le lecteur à visionner notre vidéo explicative de 5 minutes à l'adresse suivante : https://www.youtube.com/watch?v=6Mgt3EPytrw.
English
Tracking and following objects of interest is critical to several robotics
use cases, ranging from industrial automation to logistics and warehousing, to
healthcare and security. In this paper, we present a robotic system to detect,
track, and follow any object in real-time. Our approach, dubbed ``follow
anything'' (FAn), is an open-vocabulary and multimodal model -- it is not
restricted to concepts seen at training time and can be applied to novel
classes at inference time using text, images, or click queries. Leveraging rich
visual descriptors from large-scale pre-trained models (foundation models), FAn
can detect and segment objects by matching multimodal queries (text, images,
clicks) against an input image sequence. These detected and segmented objects
are tracked across image frames, all while accounting for occlusion and object
re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial
vehicle) and report its ability to seamlessly follow the objects of interest in
a real-time control loop. FAn can be deployed on a laptop with a lightweight
(6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To
enable rapid adoption, deployment, and extensibility, we open-source all our
code on our project webpage at https://github.com/alaamaalouf/FollowAnything .
We also encourage the reader the watch our 5-minutes explainer video in this
https://www.youtube.com/watch?v=6Mgt3EPytrw .