ChatPaper.aiChatPaper

YOLOE-26: Integratie van YOLO26 met YOLOE voor Real-Time Open-Vocabulary Instance Segmentatie

YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

January 29, 2026
Auteurs: Ranjan Sapkota, Manoj Karkee
cs.AI

Samenvatting

Dit artikel presenteert YOLOE-26, een uniform raamwerk dat de implementatie-geoptimaliseerde YOLO26-architectuur (of YOLOv26) integreert met het open-vocabulariumleerparadigma van YOLOE voor real-time open-vocabularium instantiesegmentatie. Voortbouwend op het NMS-vrije, end-to-end ontwerp van YOLOv26, behoudt de voorgestelde aanpak de kenmerkende efficiëntie en determinisme van de YOLO-familie, terwijl de mogelijkheden ervan worden uitgebreid voorbij gesloten-verzamelingherkenning. YOLOE-26 gebruikt een convolutionele backbone met multi-schaal kenmerkgaggregatie in PAN/FPN-stijl, gevolgd door end-to-end regressie- en instantiesegmentatiekoppen. Een belangrijke architecturale bijdrage is de vervanging van vaste klasse-logits door een object-embeddingkop, die classificatie formuleert als similariteitsafstemming tegen prompt-embeddings afgeleid van tekstbeschrijvingen, visuele voorbeelden of een ingebouwde vocabulaire. Om efficiënte open-vocabulariumredenering mogelijk te maken, integreert het raamwerk Herparameteriseerbare Regio-Text Afstemming (RepRTA) voor zero-overhead tekstprompting, een Semantisch-Geactiveerde Visuele Prompt Encoder (SAVPE) voor voorbeeldgeleide segmentatie, en Lazy Region Prompt Contrast voor prompt-vrije inferentie. Alle promptingmodaliteiten opereren binnen een uniforme object-embeddingruimte, waardoor naadloze overschakeling mogelijk is tussen tekst-geprompte, visueel-geprompte en volledig autonome segmentatie. Uitgebreide experimenten tonen consistent schaalgedrag en gunstige nauwkeurigheid-efficiëntieafwegingen aan over verschillende modelgroottes in zowel geprompte als prompt-vrije instellingen. De trainingsstrategie benut grootschalige detectie- en groundingdatasets met multi-taskoptimalisatie en blijft volledig compatibel met het Ultralytics-ecosysteem voor training, validatie en implementatie. Al met al biedt YOLOE-26 een praktische en schaalbare oplossing voor real-time open-vocabularium instantiesegmentatie in dynamische, real-world omgevingen.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.
PDF12March 12, 2026