ChatPaper.aiChatPaper

YOLO-World : Détection d'objets en temps réel avec vocabulaire ouvert

YOLO-World: Real-Time Open-Vocabulary Object Detection

January 30, 2024
Auteurs: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI

Résumé

La série de détecteurs You Only Look Once (YOLO) s'est imposée comme un ensemble d'outils efficaces et pratiques. Cependant, leur dépendance à des catégories d'objets prédéfinies et entraînées limite leur applicabilité dans des scénarios ouverts. Pour répondre à cette limitation, nous présentons YOLO-World, une approche innovante qui enrichit YOLO avec des capacités de détection en vocabulaire ouvert grâce à la modélisation vision-langage et à un pré-entraînement sur des jeux de données à grande échelle. Plus précisément, nous proposons un nouveau Réseau d'Aggrégation de Chemins Vision-Langage Re-paramétrisable (RepVL-PAN) et une fonction de perte de contraste région-texte pour faciliter l'interaction entre les informations visuelles et linguistiques. Notre méthode excelle dans la détection d'une large gamme d'objets de manière zero-shot avec une grande efficacité. Sur le jeu de données complexe LVIS, YOLO-World atteint 35,4 AP avec 52,0 FPS sur V100, surpassant de nombreuses méthodes de pointe en termes de précision et de vitesse. De plus, la version fine-tunée de YOLO-World obtient des performances remarquables sur plusieurs tâches en aval, notamment la détection d'objets et la segmentation d'instances en vocabulaire ouvert.
English
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
PDF373December 15, 2024