ChatPaper.aiChatPaper

YOLO-World: Detección de Objetos de Vocabulario Abierto en Tiempo Real

YOLO-World: Real-Time Open-Vocabulary Object Detection

January 30, 2024
Autores: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI

Resumen

La serie de detectores You Only Look Once (YOLO) se ha consolidado como una herramienta eficiente y práctica. Sin embargo, su dependencia de categorías de objetos predefinidas y entrenadas limita su aplicabilidad en escenarios abiertos. Para abordar esta limitación, presentamos YOLO-World, un enfoque innovador que mejora YOLO con capacidades de detección de vocabulario abierto mediante modelado visión-lenguaje y preentrenamiento en conjuntos de datos a gran escala. Específicamente, proponemos una nueva Red de Agregación de Rutas Visión-Lenguaje Re-parametrizable (RepVL-PAN) y una función de pérdida de contraste región-texto para facilitar la interacción entre la información visual y lingüística. Nuestro método destaca en la detección de una amplia gama de objetos de manera zero-shot con alta eficiencia. En el desafiante conjunto de datos LVIS, YOLO-World alcanza 35.4 AP con 52.0 FPS en V100, superando a muchos métodos de última generación tanto en precisión como en velocidad. Además, la versión ajustada de YOLO-World logra un rendimiento notable en varias tareas posteriores, incluyendo detección de objetos y segmentación de instancias con vocabulario abierto.
English
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
PDF414December 15, 2024