Follow Anything: Обнаружение, отслеживание и сопровождение объектов в реальном времени с открытым множеством классов
Follow Anything: Open-set detection, tracking, and following in real-time
August 10, 2023
Авторы: Alaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus
cs.AI
Аннотация
Отслеживание и следование за объектами интереса имеет критически важное значение для множества задач в робототехнике, начиная от промышленной автоматизации и заканчивая логистикой и складированием, а также здравоохранением и безопасностью. В данной статье мы представляем роботизированную систему для обнаружения, отслеживания и следования за любым объектом в режиме реального времени. Наш подход, названный «follow anything» (FAn), представляет собой модель с открытым словарем и мультимодальностью — она не ограничивается концепциями, изученными во время обучения, и может применяться к новым классам на этапе вывода с использованием текста, изображений или кликов. Используя богатые визуальные дескрипторы из крупномасштабных предобученных моделей (фундаментальных моделей), FAn может обнаруживать и сегментировать объекты, сопоставляя мультимодальные запросы (текст, изображения, клики) с последовательностью входных изображений. Обнаруженные и сегментированные объекты отслеживаются между кадрами изображения, учитывая при этом окклюзию и повторное появление объектов. Мы демонстрируем работу FAn на реальной роботизированной системе (микролетательном аппарате) и сообщаем о её способности плавно следовать за объектами интереса в режиме реального времени в управляющем цикле. FAn может быть развернут на ноутбуке с легковесной видеокартой (6-8 ГБ), достигая пропускной способности 6-20 кадров в секунду. Для обеспечения быстрого внедрения, развертывания и расширяемости мы открываем исходный код на нашей странице проекта по адресу https://github.com/alaamaalouf/FollowAnything. Также мы рекомендуем читателям посмотреть наше 5-минутное объясняющее видео по ссылке https://www.youtube.com/watch?v=6Mgt3EPytrw.
English
Tracking and following objects of interest is critical to several robotics
use cases, ranging from industrial automation to logistics and warehousing, to
healthcare and security. In this paper, we present a robotic system to detect,
track, and follow any object in real-time. Our approach, dubbed ``follow
anything'' (FAn), is an open-vocabulary and multimodal model -- it is not
restricted to concepts seen at training time and can be applied to novel
classes at inference time using text, images, or click queries. Leveraging rich
visual descriptors from large-scale pre-trained models (foundation models), FAn
can detect and segment objects by matching multimodal queries (text, images,
clicks) against an input image sequence. These detected and segmented objects
are tracked across image frames, all while accounting for occlusion and object
re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial
vehicle) and report its ability to seamlessly follow the objects of interest in
a real-time control loop. FAn can be deployed on a laptop with a lightweight
(6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To
enable rapid adoption, deployment, and extensibility, we open-source all our
code on our project webpage at https://github.com/alaamaalouf/FollowAnything .
We also encourage the reader the watch our 5-minutes explainer video in this
https://www.youtube.com/watch?v=6Mgt3EPytrw .