YOLO-World: Rilevamento di Oggetti in Tempo Reale con Vocabolario Aperto
YOLO-World: Real-Time Open-Vocabulary Object Detection
January 30, 2024
Autori: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI
Abstract
La serie di rilevatori You Only Look Once (YOLO) si è affermata come strumento efficiente e pratico. Tuttavia, la loro dipendenza da categorie di oggetti predefinite e addestrate ne limita l'applicabilità in scenari aperti. Per affrontare questa limitazione, introduciamo YOLO-World, un approccio innovativo che potenzia YOLO con capacità di rilevamento a vocabolario aperto attraverso la modellazione visione-linguaggio e il pre-addestramento su dataset su larga scala. Nello specifico, proponiamo una nuova Rete di Aggregazione Percorsi Visione-Linguaggio Ri-parametrizzabile (RepVL-PAN) e una funzione di perdita contrastiva regione-testo per facilitare l'interazione tra informazioni visive e linguistiche. Il nostro metodo eccelle nel rilevare un'ampia gamma di oggetti in modalità zero-shot con alta efficienza. Sul complesso dataset LVIS, YOLO-World raggiunge 35.4 AP con 52.0 FPS su V100, superando molti metodi all'avanguardia in termini di accuratezza e velocità. Inoltre, la versione fine-tuned di YOLO-World ottiene prestazioni notevoli in diverse attività downstream, tra cui il rilevamento di oggetti e la segmentazione di istanze a vocabolario aperto.
English
The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.