ChatPaper.aiChatPaper

Follow Anything: Echtzeit-Erkennung, Tracking und Verfolgung in offenen Szenarien

Follow Anything: Open-set detection, tracking, and following in real-time

August 10, 2023
Autoren: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI

Zusammenfassung

Das Verfolgen und Nachverfolgen von Objekten von Interesse ist entscheidend für mehrere Robotik-Anwendungsfälle, die von industrieller Automatisierung über Logistik und Lagerhaltung bis hin zu Gesundheitswesen und Sicherheit reichen. In diesem Artikel präsentieren wir ein Robotersystem, das in Echtzeit beliebige Objekte detektieren, verfolgen und nachverfolgen kann. Unser Ansatz, genannt „Follow Anything“ (FAn), ist ein offen-vokabularer und multimodaler Modell – er ist nicht auf Konzepte beschränkt, die während des Trainings gesehen wurden, und kann auf neue Klassen zur Inferenzzeit mittels Text, Bildern oder Klick-Abfragen angewendet werden. Durch die Nutzung reichhaltiger visueller Deskriptoren aus großskaligen vortrainierten Modellen (Foundation Models) kann FAn Objekte detektieren und segmentieren, indem multimodale Abfragen (Text, Bilder, Klicks) mit einer Eingabebildsequenz abgeglichen werden. Diese detektierten und segmentierten Objekte werden über Bildframes hinweg verfolgt, wobei Verdeckungen und das Wiederauftauchen von Objekten berücksichtigt werden. Wir demonstrieren FAn an einem realen Robotersystem (einem Mikro-Luftfahrzeug) und berichten über seine Fähigkeit, die Objekte von Interesse nahtlos in einer Echtzeit-Kontrollschleife zu verfolgen. FAn kann auf einem Laptop mit einer leistungsschwachen Grafikkarte (6-8 GB) eingesetzt werden und erreicht einen Durchsatz von 6-20 Bildern pro Sekunde. Um eine schnelle Übernahme, Bereitstellung und Erweiterbarkeit zu ermöglichen, stellen wir unseren gesamten Code auf unserer Projektwebseite unter https://github.com/alaamaalouf/FollowAnything als Open Source zur Verfügung. Wir ermutigen den Leser auch, unser 5-minütiges Erklärvideo unter https://www.youtube.com/watch?v=6Mgt3EPytrw anzusehen.
English
Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .
PDF120December 15, 2024