ChatPaper.aiChatPaper

Seguir Cualquier Cosa: Detección, seguimiento y rastreo en tiempo real en entornos abiertos

Follow Anything: Open-set detection, tracking, and following in real-time

August 10, 2023
Autores: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI

Resumen

El seguimiento y la persecución de objetos de interés es crucial para diversos casos de uso en robótica, que van desde la automatización industrial hasta la logística y el almacenamiento, pasando por la atención médica y la seguridad. En este artículo, presentamos un sistema robótico para detectar, rastrear y seguir cualquier objeto en tiempo real. Nuestro enfoque, denominado "follow anything" (FAn), es un modelo de vocabulario abierto y multimodal: no está limitado a conceptos vistos durante el entrenamiento y puede aplicarse a clases novedosas en tiempo de inferencia utilizando texto, imágenes o consultas por clic. Aprovechando descriptores visuales ricos de modelos preentrenados a gran escala (modelos base), FAn puede detectar y segmentar objetos al emparejar consultas multimodales (texto, imágenes, clics) con una secuencia de imágenes de entrada. Estos objetos detectados y segmentados se rastrean a través de los fotogramas de la imagen, teniendo en cuenta la oclusión y la reaparición de objetos. Demostramos FAn en un sistema robótico del mundo real (un vehículo aéreo micro) e informamos sobre su capacidad para seguir sin problemas los objetos de interés en un bucle de control en tiempo real. FAn puede implementarse en una computadora portátil con una tarjeta gráfica ligera (6-8 GB), logrando un rendimiento de 6-20 fotogramas por segundo. Para facilitar la adopción rápida, la implementación y la extensibilidad, hemos liberado todo nuestro código en la página web del proyecto en https://github.com/alaamaalouf/FollowAnything. También animamos al lector a ver nuestro video explicativo de 5 minutos en este enlace: https://www.youtube.com/watch?v=6Mgt3EPytrw.
English
Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .
PDF120December 15, 2024