YOLOE-26: Integração do YOLO26 com YOLOE para Segmentação de Instâncias em Vocabulário Aberto em Tempo Real
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
January 29, 2026
Autores: Ranjan Sapkota, Manoj Karkee
cs.AI
Resumo
Este artigo apresenta o YOLOE-26, uma estrutura unificada que integra a arquitetura YOLO26 (ou YOLOv26) otimizada para implantação com o paradigma de aprendizado de vocabulário aberto do YOLOE para segmentação de instâncias em tempo real com vocabulário aberto. Com base no projeto *end-to-end* e livre de NMS do YOLOv26, a abordagem proposta preserva a eficiência e o determinismo característicos da família YOLO, estendendo suas capacidades para além do reconhecimento em conjuntos fechados. O YOLOE-26 emprega uma *backbone* convolucional com agregação de características multi-escala no estilo PAN/FPN, seguida por cabeças de regressão e segmentação de instâncias *end-to-end*. Uma contribuição arquitetônica fundamental é a substituição dos *logits* de classe fixos por um cabeçote de incorporação de objetos, que formula a classificação como uma correspondência de similaridade contra incorporações derivadas de descrições textuais, exemplos visuais ou um vocabulário interno. Para permitir um raciocínio de vocabulário aberto eficiente, a estrutura incorpora o Alinhamento Região-Texto Re-parametrizável (RepRTA) para *prompting* textual de custo zero, um Codificador de *Prompt* Visual Ativado Semanticamente (SAVPE) para segmentação guiada por exemplos e o Contraste de *Prompt* de Região Preguiçoso para inferência sem *prompts*. Todas as modalidades de *prompting* operam dentro de um espaço unificado de incorporação de objetos, permitindo a transição perfeita entre segmentação com *prompt* textual, com *prompt* visual e totalmente autônoma. Experimentos extensivos demonstram comportamento de escala consistente e compensações favoráveis entre precisão e eficiência em vários tamanhos de modelo, tanto em configurações com quanto sem *prompts*. A estratégia de treinamento aproveita conjuntos de dados de detecção e *grounding* em larga escala com otimização multitarefa e mantém total compatibilidade com o ecossistema Ultralytics para treinamento, validação e implantação. No geral, o YOLOE-26 fornece uma solução prática e escalável para segmentação de instâncias em tempo real com vocabulário aberto em ambientes dinâmicos do mundo real.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.