YOLOE-26: Integrazione di YOLO26 con YOLOE per la Segmentazione di Istanza in Vocabolario Aperto in Tempo Reale
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
January 29, 2026
Autori: Ranjan Sapkota, Manoj Karkee
cs.AI
Abstract
Questo articolo presenta YOLOE-26, un framework unificato che integra l'architettura YOLO26 (o YOLOv26) ottimizzata per il deployment con il paradigma di apprendimento open-vocabulary di YOLOE per la segmentazione di istanze open-vocabulary in tempo reale. Basandosi sulla progettazione end-to-end e senza NMS di YOLOv26, l'approccio proposto preserva l'efficienza e il determinismo caratteristici della famiglia YOLO, estendendo al contempo le sue capacità oltre il riconoscimento a insieme chiuso. YOLOE-26 utilizza una backbone convoluzionale con aggregazione di caratteristiche multi-scala in stile PAN/FPN, seguita da teste di regressione e segmentazione di istanze end-to-end. Un contributo architetturale chiave è la sostituzione dei logit di classe fissi con una testa di incorporamento degli oggetti, che formula la classificazione come corrispondenza per similarità rispetto a incorporamenti derivati da descrizioni testuali, esempi visivi o un vocabolario integrato. Per abilitare un ragionamento open-vocabulary efficiente, il framework incorpora l'Allineamento Regione-Testo Riparametrizzabile (RepRTA) per il prompting testuale a costo zero, un Encoder di Prompt Visivi ad Attivazione Semantica (SAVPE) per la segmentazione guidata da esempi e il Contrasto Region Prompt Lazy per l'inferenza senza prompt. Tutte le modalità di prompting operano all'interno di uno spazio di incorporamento degli oggetti unificato, consentendo una commutazione senza soluzione di continuità tra segmentazione promptata da testo, da elementi visivi e completamente autonoma. Esperimenti estensivi dimostrano un comportamento di scaling consistente e compromessi favorevoli tra accuratezza ed efficienza su diverse dimensioni del modello, sia in configurazioni con prompt che senza. La strategia di addestramento sfrutta dataset di detection e grounding su larga scala con ottimizzazione multi-task e rimane completamente compatibile con l'ecosistema Ultralytics per l'addestramento, la validazione e il deployment. Nel complesso, YOLOE-26 fornisce una soluzione pratica e scalabile per la segmentazione di istanze open-vocabulary in tempo reale in ambienti dinamici del mondo reale.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.