YOLO-World: Detección de Objetos de Vocabulario Abierto en Tiempo Real
YOLO-World: Real-Time Open-Vocabulary Object Detection
January 30, 2024
Autores: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI
Resumen
La serie de detectores You Only Look Once (YOLO) se ha consolidado como una herramienta eficiente y práctica. Sin embargo, su dependencia de categorías de objetos predefinidas y entrenadas limita su aplicabilidad en escenarios abiertos. Para abordar esta limitación, presentamos YOLO-World, un enfoque innovador que mejora YOLO con capacidades de detección de vocabulario abierto mediante modelado visión-lenguaje y preentrenamiento en conjuntos de datos a gran escala. Específicamente, proponemos una nueva Red de Agregación de Rutas Visión-Lenguaje Re-parametrizable (RepVL-PAN) y una función de pérdida de contraste región-texto para facilitar la interacción entre la información visual y lingüística. Nuestro método destaca en la detección de una amplia gama de objetos de manera zero-shot con alta eficiencia. En el desafiante conjunto de datos LVIS, YOLO-World alcanza 35.4 AP con 52.0 FPS en V100, superando a muchos métodos de última generación tanto en precisión como en velocidad. Además, la versión ajustada de YOLO-World logra un rendimiento notable en varias tareas posteriores, incluyendo detección de objetos y segmentación de instancias con vocabulario abierto.
English
The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.