Follow Anything : Détection, suivi et poursuite en temps réel dans un contexte ouvert

papers.abstract

Le suivi et la poursuite d'objets d'intérêt sont essentiels pour plusieurs cas d'utilisation en robotique, allant de l'automatisation industrielle à la logistique et à l'entreposage, en passant par la santé et la sécurité. Dans cet article, nous présentons un système robotique capable de détecter, suivre et poursuivre en temps réel n'importe quel objet. Notre approche, baptisée « follow anything » (FAn), est un modèle multimodal et à vocabulaire ouvert — elle n'est pas limitée aux concepts vus lors de l'entraînement et peut être appliquée à de nouvelles classes au moment de l'inférence en utilisant des requêtes textuelles, visuelles ou par clic. En exploitant des descripteurs visuels riches issus de modèles pré-entraînés à grande échelle (modèles de base), FAn peut détecter et segmenter des objets en faisant correspondre des requêtes multimodales (texte, images, clics) à une séquence d'images d'entrée. Ces objets détectés et segmentés sont suivis à travers les images, tout en tenant compte des occlusions et des réapparitions d'objets. Nous démontrons FAn sur un système robotique réel (un véhicule aérien micro) et rapportons sa capacité à suivre de manière fluide les objets d'intérêt dans une boucle de contrôle en temps réel. FAn peut être déployé sur un ordinateur portable équipé d'une carte graphique légère (6-8 Go), atteignant un débit de 6 à 20 images par seconde. Pour favoriser une adoption rapide, un déploiement aisé et une extensibilité, nous mettons en open source tout notre code sur la page web de notre projet à l'adresse https://github.com/alaamaalouf/FollowAnything. Nous encourageons également le lecteur à visionner notre vidéo explicative de 5 minutes à l'adresse suivante : https://www.youtube.com/watch?v=6Mgt3EPytrw.

English

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .

Follow Anything : Détection, suivi et poursuite en temps réel dans un contexte ouvert

Follow Anything: Open-set detection, tracking, and following in real-time

papers.abstract

Support