Siga Qualquer Coisa: Detecção, rastreamento e seguimento em tempo real em cenários abertos

Resumo

O rastreamento e seguimento de objetos de interesse é crucial para diversos casos de uso em robótica, desde automação industrial até logística e armazenamento, passando por saúde e segurança. Neste artigo, apresentamos um sistema robótico para detectar, rastrear e seguir qualquer objeto em tempo real. Nossa abordagem, denominada "follow anything" (FAn), é um modelo de vocabulário aberto e multimodal — não está restrita a conceitos vistos durante o treinamento e pode ser aplicada a novas classes no momento da inferência usando texto, imagens ou consultas por clique. Aproveitando descritores visuais ricos de modelos pré-treinados em larga escala (modelos de base), o FAn pode detectar e segmentar objetos ao corresponder consultas multimodais (texto, imagens, cliques) a uma sequência de imagens de entrada. Esses objetos detectados e segmentados são rastreados ao longo dos quadros de imagem, levando em consideração oclusão e o reaparecimento do objeto. Demonstramos o FAn em um sistema robótico do mundo real (um veículo aéreo micro) e relatamos sua capacidade de seguir de forma contínua os objetos de interesse em um loop de controle em tempo real. O FAn pode ser implantado em um laptop com uma placa gráfica leve (6-8 GB), alcançando uma taxa de processamento de 6-20 quadros por segundo. Para permitir adoção rápida, implantação e extensibilidade, disponibilizamos todo o nosso código como código aberto em nossa página do projeto em https://github.com/alaamaalouf/FollowAnything. Também incentivamos o leitor a assistir ao nosso vídeo explicativo de 5 minutos neste link: https://www.youtube.com/watch?v=6Mgt3EPytrw.

English

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .

Siga Qualquer Coisa: Detecção, rastreamento e seguimento em tempo real em cenários abertos

Follow Anything: Open-set detection, tracking, and following in real-time

Resumo

Support