YOLOE-26 : Intégration de YOLO26 avec YOLOE pour la segmentation d'instances en temps réel à vocabulaire ouvert
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
January 29, 2026
papers.authors: Ranjan Sapkota, Manoj Karkee
cs.AI
papers.abstract
Ce document présente YOLOE-26, un cadre unifié qui intègre l'architecture YOLO26 (ou YOLOv26) optimisée pour le déploiement avec le paradigme d'apprentissage en vocabulaire ouvert de YOLOE pour la segmentation d'instances en temps réel en vocabulaire ouvert. S'appuyant sur la conception end-to-end et sans NMS de YOLOv26, l'approche proposée préserve l'efficacité et le déterminisme caractéristiques de la famille YOLO tout en étendant ses capacités au-delà de la reconnaissance en ensemble fermé. YOLOE-26 utilise un squelette convolutionnel avec une agrégation de caractéristiques multi-échelles de type PAN/FPN, suivi de têtes de régression et de segmentation d'instances end-to-end. Une contribution architecturale clé est le remplacement des logits de classe fixes par une tête d'incorporation d'objets, qui formule la classification comme une mise en correspondance par similarité avec des incorporations d'invites dérivées de descriptions textuelles, d'exemples visuels ou d'un vocabulaire intégré. Pour permettre un raisonnement efficace en vocabulaire ouvert, le cadre intègre un Alignement Région-Texte Re-paramétrisable (RepRTA) pour l'invite textuelle sans surcoût, un Encodeur d'Invite Visuelle à Activation Sémantique (SAVPE) pour la segmentation guidée par l'exemple, et un Contraste d'Invite Région Paresseux pour l'inférence sans invite. Toutes les modalités d'invite opèrent dans un espace d'incorporation d'objets unifié, permettant une commutation transparente entre la segmentation par invite textuelle, par invite visuelle et entièrement autonome. Des expériences approfondies démontrent un comportement d'échelle cohérent et des compromis précision-efficacité favorables pour toutes les tailles de modèle, dans des configurations avec et sans invite. La stratégie d'entraînement exploite des ensembles de données de détection et d'ancrage à grande échelle avec une optimisation multi-tâche et reste entièrement compatible avec l'écosystème Ultralytics pour l'entraînement, la validation et le déploiement. Globalement, YOLOE-26 fournit une solution pratique et évolutive pour la segmentation d'instances en temps réel en vocabulaire ouvert dans des environnements dynamiques du monde réel.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.