YOLO-World : Détection d'objets en temps réel avec vocabulaire ouvert
YOLO-World: Real-Time Open-Vocabulary Object Detection
January 30, 2024
Auteurs: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI
Résumé
La série de détecteurs You Only Look Once (YOLO) s'est imposée comme un ensemble d'outils efficaces et pratiques. Cependant, leur dépendance à des catégories d'objets prédéfinies et entraînées limite leur applicabilité dans des scénarios ouverts. Pour répondre à cette limitation, nous présentons YOLO-World, une approche innovante qui enrichit YOLO avec des capacités de détection en vocabulaire ouvert grâce à la modélisation vision-langage et à un pré-entraînement sur des jeux de données à grande échelle. Plus précisément, nous proposons un nouveau Réseau d'Aggrégation de Chemins Vision-Langage Re-paramétrisable (RepVL-PAN) et une fonction de perte de contraste région-texte pour faciliter l'interaction entre les informations visuelles et linguistiques. Notre méthode excelle dans la détection d'une large gamme d'objets de manière zero-shot avec une grande efficacité. Sur le jeu de données complexe LVIS, YOLO-World atteint 35,4 AP avec 52,0 FPS sur V100, surpassant de nombreuses méthodes de pointe en termes de précision et de vitesse. De plus, la version fine-tunée de YOLO-World obtient des performances remarquables sur plusieurs tâches en aval, notamment la détection d'objets et la segmentation d'instances en vocabulaire ouvert.
English
The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.