YOLOE-26: Integración de YOLO26 con YOLOE para la Segmentación de Instancias de Vocabulario Abierto en Tiempo Real
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
January 29, 2026
Autores: Ranjan Sapkota, Manoj Karkee
cs.AI
Resumen
Este artículo presenta YOLOE-26, un marco unificado que integra la arquitectura YOLO26 (o YOLOv26) optimizada para despliegue con el paradigma de aprendizaje de vocabulario abierto de YOLOE para la segmentación de instancias en tiempo real con vocabulario abierto. Basándose en el diseño de extremo a extremo y libre de NMS de YOLOv26, el enfoque propuesto preserva la eficiencia y el determinismo característicos de la familia YOLO, al tiempo que extiende sus capacidades más allá del reconocimiento de conjuntos cerrados. YOLOE-26 emplea una red troncal convolucional con agregación de características multiescala de tipo PAN/FPN, seguida de cabezales de regresión y segmentación de instancias de extremo a extremo. Una contribución arquitectónica clave es el reemplazo de los logits de clase fijos por un cabezal de incrustación de objetos, que formula la clasificación como una comparación de similitud frente a incrustaciones derivadas de descripciones textuales, ejemplos visuales o un vocabulario integrado. Para permitir un razonamiento de vocabulario abierto eficiente, el marco incorpora Alineación de Región-Texto Re-parametrizable (RepRTA) para indicaciones de texto sin sobrecarga, un Codificador de Indicaciones Visuales Activado Semánticamente (SAVPE) para segmentación guiada por ejemplos, y Contraste de Indicaciones de Región Permanente (Lazy Region Prompt Contrast) para inferencia automática. Todas las modalidades de indicación operan dentro de un espacio unificado de incrustación de objetos, permitiendo un cambio fluido entre segmentación por indicación textual, por indicación visual y completamente autónoma. Experimentos exhaustivos demuestran un comportamiento de escalado consistente y compensaciones favorables entre precisión y eficiencia en todos los tamaños de modelo, tanto en configuraciones con indicación como automáticas. La estrategia de entrenamiento aproveja conjuntos de datos de detección y localización a gran escala con optimización multitarea y mantiene una compatibilidad total con el ecosistema Ultralytics para entrenamiento, validación y despliegue. En general, YOLOE-26 proporciona una solución práctica y escalable para la segmentación de instancias en tiempo real con vocabulario abierto en entornos dinámicos del mundo real.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.