ChatPaper.aiChatPaper

YOLO-World: Detecção de Objetos em Tempo Real com Vocabulário Aberto

YOLO-World: Real-Time Open-Vocabulary Object Detection

January 30, 2024
Autores: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
cs.AI

Resumo

A série de detectores You Only Look Once (YOLO) consolidou-se como uma ferramenta eficiente e prática. No entanto, sua dependência de categorias de objetos predefinidas e treinadas limita sua aplicabilidade em cenários abertos. Para superar essa limitação, apresentamos o YOLO-World, uma abordagem inovadora que aprimora o YOLO com capacidades de detecção de vocabulário aberto por meio de modelagem visão-linguagem e pré-treinamento em conjuntos de dados em larga escala. Especificamente, propomos uma nova Rede de Agregação de Caminhos Visão-Linguagem Re-parametrizável (RepVL-PAN) e uma função de perda contrastiva região-texto para facilitar a interação entre informações visuais e linguísticas. Nosso método se destaca na detecção de uma ampla gama de objetos de maneira zero-shot com alta eficiência. No desafiador conjunto de dados LVIS, o YOLO-World alcança 35,4 AP com 52,0 FPS em V100, superando muitos métodos state-of-the-art em termos de precisão e velocidade. Além disso, o YOLO-World ajustado finamente alcança desempenho notável em várias tarefas subsequentes, incluindo detecção de objetos e segmentação de instâncias de vocabulário aberto.
English
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
PDF404December 15, 2024