YOLO-World: Detecção de Objetos em Tempo Real com Vocabulário Aberto
YOLO-World: Real-Time Open-Vocabulary Object Detection
January 30, 2024
Autores: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI
Resumo
A série de detectores You Only Look Once (YOLO) consolidou-se como uma ferramenta eficiente e prática. No entanto, sua dependência de categorias de objetos predefinidas e treinadas limita sua aplicabilidade em cenários abertos. Para superar essa limitação, apresentamos o YOLO-World, uma abordagem inovadora que aprimora o YOLO com capacidades de detecção de vocabulário aberto por meio de modelagem visão-linguagem e pré-treinamento em conjuntos de dados em larga escala. Especificamente, propomos uma nova Rede de Agregação de Caminhos Visão-Linguagem Re-parametrizável (RepVL-PAN) e uma função de perda contrastiva região-texto para facilitar a interação entre informações visuais e linguísticas. Nosso método se destaca na detecção de uma ampla gama de objetos de maneira zero-shot com alta eficiência. No desafiador conjunto de dados LVIS, o YOLO-World alcança 35,4 AP com 52,0 FPS em V100, superando muitos métodos state-of-the-art em termos de precisão e velocidade. Além disso, o YOLO-World ajustado finamente alcança desempenho notável em várias tarefas subsequentes, incluindo detecção de objetos e segmentação de instâncias de vocabulário aberto.
English
The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.