YOLO-World: Echtzeit-Open-Vocabulary-Objekterkennung
YOLO-World: Real-Time Open-Vocabulary Object Detection
January 30, 2024
Autoren: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI
Zusammenfassung
Die You Only Look Once (YOLO)-Reihe von Detektoren hat sich als effiziente und praktische Werkzeuge etabliert. Ihre Abhängigkeit von vordefinierten und trainierten Objektkategorien schränkt jedoch ihre Anwendbarkeit in offenen Szenarien ein. Um diese Einschränkung zu überwinden, stellen wir YOLO-World vor, einen innovativen Ansatz, der YOLO durch Vision-Language-Modellierung und Vorabtraining auf groß angelegten Datensätzen mit Fähigkeiten zur offenen Vokabelerkennung erweitert. Konkret schlagen wir ein neues Re-parameterisierbares Vision-Language Path Aggregation Network (RepVL-PAN) und einen Region-Text-Kontrastverlust vor, um die Interaktion zwischen visuellen und linguistischen Informationen zu erleichtern. Unsere Methode zeichnet sich durch die Erkennung einer Vielzahl von Objekten in einem Zero-Shot-Verfahren mit hoher Effizienz aus. Auf dem anspruchsvollen LVIS-Datensatz erreicht YOLO-World 35,4 AP mit 52,0 FPS auf einer V100, was viele state-of-the-art-Methoden sowohl in Bezug auf Genauigkeit als auch Geschwindigkeit übertrifft. Darüber hinaus erzielt der feinabgestimmte YOLO-World bemerkenswerte Leistungen bei mehreren nachgelagerten Aufgaben, einschließlich Objekterkennung und offener Vokabelinstanzsegmentierung.
English
The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.