ChatPaper.aiChatPaper

YOLOE-26: Integration von YOLO26 mit YOLOE für Echtzeit-Open-Vocabulary-Instanzsegmentierung

YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

January 29, 2026
papers.authors: Ranjan Sapkota, Manoj Karkee
cs.AI

papers.abstract

Dieses Paper stellt YOLOE-26 vor, ein einheitliches Framework, das die deploymentsoptimierte YOLO26-Architektur mit dem Open-Vocabulary-Lernparadigma von YOLOE für Echtzeit-Open-Vocabulary-Instanzsegmentierung vereint. Aufbauend auf dem NMS-freien, End-to-End-Design von YOLOv26 bewahrt der vorgeschlagene Ansatz die charakteristische Effizienz und Deterministik der YOLO-Familie und erweitert gleichzeitig deren Fähigkeiten über Closed-Set-Erkennung hinaus. YOLOE-26 verwendet ein Convolutional Backbone mit mehrstufiger Feature-Aggregation im PAN/FPN-Stil, gefolgt von End-to-End-Regressions- und Instanzsegmentierungsköpfen. Ein wesentlicher architektonischer Beitrag ist der Ersatz fester Klassenlogits durch einen Objekt-Embedding-Kopf, der Klassifikation als Ähnlichkeitsabgleich mit Prompt-Embeddings formuliert, die aus Textbeschreibungen, visuellen Beispielen oder einem integrierten Vokabular abgeleitet werden. Um effizientes Open-Vocabulary-Inferenz zu ermöglichen, integriert das Framework Re-parametrisierbare Region-Text-Ausrichtung für Text-Prompting ohne Overhead, einen semantisch-aktivierten visuellen Prompt-Encoder für beispielgesteuerte Segmentierung und Lazy Region Prompt Contrast für promptfreie Inferenz. Alle Prompting-Modalitäten operieren innerhalb eines einheitlichen Objekt-Embedding-Raums und ermöglichen nahtloses Wechseln zwischen textgeprompter, visuell-geprompter und vollautonomer Segmentierung. Umfangreiche Experimente demonstrieren konsistentes Skalierungsverhalten und günstige Genauigkeits-Effizienz-Kompromisse über verschiedene Modellgrößen hinweg, sowohl in geprompteten als auch promptfreien Settings. Die Trainingsstrategie nutzt groß angelegte Detektions- und Grounding-Datensätze mit Multi-Task-Optimierung und bleibt voll kompatibel mit dem Ultralytics-Ökosystem für Training, Validierung und Deployment. Insgesamt bietet YOLOE-26 eine praktische und skalierbare Lösung für Echtzeit-Open-Vocabulary-Instanzsegmentierung in dynamischen, realen Umgebungen.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.
PDF12February 7, 2026