Follow Anything: Open-set detectie, tracking en volgen in realtime

Samenvatting

Het volgen en achtervolgen van objecten van belang is cruciaal voor verschillende robotica-toepassingen, variërend van industriële automatisering tot logistiek en magazijnbeheer, en van gezondheidszorg tot beveiliging. In dit artikel presenteren we een robotsysteem om objecten in realtime te detecteren, volgen en achtervolgen. Onze aanpak, genaamd ``follow anything'' (FAn), is een open-vocabulaire en multimodaal model — het is niet beperkt tot concepten die tijdens de training zijn gezien en kan worden toegepast op nieuwe klassen tijdens de inferentie met behulp van tekst, afbeeldingen of klikquery's. Door gebruik te maken van rijke visuele beschrijvingen van grootschalige vooraf getrainde modellen (foundation models), kan FAn objecten detecteren en segmenteren door multimodale query's (tekst, afbeeldingen, klikken) te matchen met een invoerbeeldsequentie. Deze gedetecteerde en gesegmenteerde objecten worden gevolgd over beeldframes, waarbij rekening wordt gehouden met occlusie en het opnieuw verschijnen van objecten. We demonstreren FAn op een real-world robotsysteem (een micro-luchtvoertuig) en rapporteren over zijn vermogen om naadloos de objecten van belang te volgen in een realtime besturingslus. FAn kan worden geïmplementeerd op een laptop met een lichtgewicht (6-8 GB) grafische kaart, waarbij een doorvoer van 6-20 frames per seconde wordt bereikt. Om snelle adoptie, implementatie en uitbreidbaarheid mogelijk te maken, hebben we al onze code open-source gemaakt op onze projectwebpagina op https://github.com/alaamaalouf/FollowAnything. We moedigen de lezer ook aan om onze 5-minuten durende uitlegvideo te bekijken op https://www.youtube.com/watch?v=6Mgt3EPytrw.

English

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .

Follow Anything: Open-set detectie, tracking en volgen in realtime

Follow Anything: Open-set detection, tracking, and following in real-time

Samenvatting

Support