ChatPaper.aiChatPaper

YOLO-World: Обнаружение объектов с открытым словарём в реальном времени

YOLO-World: Real-Time Open-Vocabulary Object Detection

January 30, 2024
Авторы: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI

Аннотация

Серия детекторов You Only Look Once (YOLO) зарекомендовала себя как эффективный и практичный инструмент. Однако их зависимость от предопределённых и обученных категорий объектов ограничивает их применимость в открытых сценариях. Для устранения этого ограничения мы представляем YOLO-World — инновационный подход, который расширяет возможности YOLO за счёт открытого словарного детектирования с использованием моделирования "визуальный язык" и предварительного обучения на крупномасштабных наборах данных. В частности, мы предлагаем новую Перепараметризуемую Сеть Агрегации Путей "Визуальный Язык" (RepVL-PAN) и контрастную функцию потерь "регион-текст" для улучшения взаимодействия между визуальной и лингвистической информацией. Наш метод демонстрирует высокую эффективность в обнаружении широкого спектра объектов в режиме "нулевого сэмпла". На сложном наборе данных LVIS YOLO-World достигает показателя 35.4 AP при 52.0 FPS на V100, превосходя многие современные методы как по точности, так и по скорости. Кроме того, доработанная версия YOLO-World показывает выдающиеся результаты в нескольких последующих задачах, включая детектирование объектов и сегментацию экземпляров с открытым словарём.
English
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
PDF373December 15, 2024