YOLOE : Vision en temps réel de tout objet

Résumé

La détection et la segmentation d'objets sont largement utilisées dans les applications de vision par ordinateur, mais les modèles conventionnels comme la série YOLO, bien qu'efficaces et précis, sont limités par des catégories prédéfinies, ce qui entrave leur adaptabilité dans des scénarios ouverts. Les méthodes récentes de type open-set exploitent des invites textuelles, des indices visuels ou un paradigme sans invite pour surmonter cela, mais elles font souvent des compromis entre performance et efficacité en raison de demandes de calcul élevées ou de complexité de déploiement. Dans ce travail, nous présentons YOLOE, qui intègre la détection et la segmentation à travers divers mécanismes d'invite ouverte dans un seul modèle hautement efficace, permettant une vision en temps réel de n'importe quoi. Pour les invites textuelles, nous proposons la stratégie Re-parameterizable Region-Text Alignment (RepRTA). Elle affine les embeddings textuels pré-entraînés via un réseau auxiliaire léger re-paramétrable et améliore l'alignement visuel-textuel sans surcharge d'inférence ni de transfert. Pour les invites visuelles, nous présentons le Semantic-Activated Visual Prompt Encoder (SAVPE). Il utilise des branches sémantiques et d'activation découplées pour améliorer l'embedding visuel et la précision avec une complexité minimale. Pour les scénarios sans invite, nous introduisons la stratégie Lazy Region-Prompt Contrast (LRPC). Elle utilise un vocabulaire intégré étendu et un embedding spécialisé pour identifier tous les objets, évitant ainsi la dépendance coûteuse à un modèle de langage. Des expériences approfondies montrent les performances exceptionnelles de YOLOE en zero-shot et sa transférabilité avec une efficacité d'inférence élevée et un faible coût d'entraînement. Notamment, sur LVIS, avec un coût d'entraînement 3 fois moindre et une accélération d'inférence de 1,4 fois, YOLOE-v8-S surpasse YOLO-Worldv2-S de 3,5 AP. Lors du transfert vers COCO, YOLOE-v8-L obtient des gains de 0,6 AP^b et 0,4 AP^m par rapport au YOLOv8-L en closed-set avec un temps d'entraînement presque 4 fois moindre. Le code et les modèles sont disponibles sur https://github.com/THU-MIG/yoloe.

English

Object detection and segmentation are widely employed in computer vision applications, yet conventional models like YOLO series, while efficient and accurate, are limited by predefined categories, hindering adaptability in open scenarios. Recent open-set methods leverage text prompts, visual cues, or prompt-free paradigm to overcome this, but often compromise between performance and efficiency due to high computational demands or deployment complexity. In this work, we introduce YOLOE, which integrates detection and segmentation across diverse open prompt mechanisms within a single highly efficient model, achieving real-time seeing anything. For text prompts, we propose Re-parameterizable Region-Text Alignment (RepRTA) strategy. It refines pretrained textual embeddings via a re-parameterizable lightweight auxiliary network and enhances visual-textual alignment with zero inference and transferring overhead. For visual prompts, we present Semantic-Activated Visual Prompt Encoder (SAVPE). It employs decoupled semantic and activation branches to bring improved visual embedding and accuracy with minimal complexity. For prompt-free scenario, we introduce Lazy Region-Prompt Contrast (LRPC) strategy. It utilizes a built-in large vocabulary and specialized embedding to identify all objects, avoiding costly language model dependency. Extensive experiments show YOLOE's exceptional zero-shot performance and transferability with high inference efficiency and low training cost. Notably, on LVIS, with 3times less training cost and 1.4times inference speedup, YOLOE-v8-S surpasses YOLO-Worldv2-S by 3.5 AP. When transferring to COCO, YOLOE-v8-L achieves 0.6 AP^b and 0.4 AP^m gains over closed-set YOLOv8-L with nearly 4times less training time. Code and models are available at https://github.com/THU-MIG/yoloe.

YOLOE : Vision en temps réel de tout objet

YOLOE: Real-Time Seeing Anything

Résumé

Support