ChatPaper.aiChatPaper

YOLO-World: Real-Time Open-Vocabulary Objectdetectie

YOLO-World: Real-Time Open-Vocabulary Object Detection

January 30, 2024
Auteurs: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI

Samenvatting

De You Only Look Once (YOLO)-serie van detectoren heeft zich gevestigd als efficiënte en praktische tools. Hun afhankelijkheid van vooraf gedefinieerde en getrainde objectcategorieën beperkt echter hun toepasbaarheid in open scenario's. Om deze beperking aan te pakken, introduceren we YOLO-World, een innovatieve aanpak die YOLO versterkt met open-vocabulaire detectiecapaciteiten door middel van visie-taalmodellering en pre-training op grootschalige datasets. Specifiek stellen we een nieuw Herparameteriseerbaar Visie-Taal Pad Aggregatie Netwerk (RepVL-PAN) en een regio-tekst contrastief verlies voor om de interactie tussen visuele en linguïstische informatie te vergemakkelijken. Onze methode blinkt uit in het detecteren van een breed scala aan objecten op een zero-shot-manier met hoge efficiëntie. Op de uitdagende LVIS-dataset behaalt YOLO-World 35.4 AP met 52.0 FPS op V100, wat veel state-of-the-art methoden overtreft in termen van zowel nauwkeurigheid als snelheid. Bovendien behaalt de fijn afgestemde YOLO-World opmerkelijke prestaties op verschillende downstream taken, waaronder objectdetectie en open-vocabulaire instantiesegmentatie.
English
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
PDF404December 15, 2024