Follow Anything: Rilevamento aperto, tracciamento e inseguimento in tempo reale

Abstract

Il monitoraggio e il seguimento di oggetti di interesse è fondamentale per diverse applicazioni robotiche, che spaziano dall'automazione industriale alla logistica e al magazzinaggio, fino all'assistenza sanitaria e alla sicurezza. In questo articolo, presentiamo un sistema robotico in grado di rilevare, tracciare e seguire qualsiasi oggetto in tempo reale. Il nostro approccio, denominato "follow anything" (FAn), è un modello open-vocabulary e multimodale: non è limitato ai concetti visti durante l'addestramento e può essere applicato a nuove classi al momento dell'inferenza utilizzando query testuali, immagini o clic. Sfruttando descrittori visivi ricavati da modelli pre-addestrati su larga scala (foundation models), FAn è in grado di rilevare e segmentare oggetti confrontando query multimodali (testo, immagini, clic) con una sequenza di immagini in ingresso. Gli oggetti rilevati e segmentati vengono tracciati attraverso i fotogrammi, tenendo conto di eventuali occlusioni e riapparizioni degli oggetti. Dimostriamo FAn su un sistema robotico reale (un veicolo aereo micro) e ne riportiamo la capacità di seguire senza interruzioni gli oggetti di interesse in un ciclo di controllo in tempo reale. FAn può essere implementato su un laptop dotato di una scheda grafica leggera (6-8 GB), raggiungendo una velocità di elaborazione di 6-20 fotogrammi al secondo. Per favorire una rapida adozione, implementazione ed estensibilità, abbiamo reso disponibile tutto il nostro codice in open-source sulla pagina del progetto all'indirizzo https://github.com/alaamaalouf/FollowAnything. Inoltre, incoraggiamo il lettore a guardare il nostro video esplicativo di 5 minuti disponibile al seguente link: https://www.youtube.com/watch?v=6Mgt3EPytrw.

English

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .

Follow Anything: Rilevamento aperto, tracciamento e inseguimento in tempo reale

Follow Anything: Open-set detection, tracking, and following in real-time

Abstract

Support