YOLOE-26: Интеграция YOLO26 с YOLOE для сегментации экземпляров в реальном времени с открытым словарём
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
January 29, 2026
Авторы: Ranjan Sapkota, Manoj Karkee
cs.AI
Аннотация
В данной статье представлена YOLOE-26 — унифицированная платформа, объединяющая оптимизированную для развертывания архитектуру YOLO26 (или YOLOv26) с парадигмой обучения с открытым словарем YOLOE для задач сегментации экземпляров в реальном времени с открытым словарем. Основываясь на свободном от NMS, сквозном дизайне YOLOv26, предложенный подход сохраняет характерные для семейства YOLO эффективность и детерминизм, расширяя при этом его возможности за пределы распознавания в закрытых наборах. YOLOE-26 использует сверточную основу с многоуровневой агрегацией признаков в стиле PAN/FPN, за которой следуют сквозные головы регрессии и сегментации экземпляров. Ключевым архитектурным нововведением является замена фиксированных логитов классов на голову эмбеддингов объектов, которая формулирует классификацию как задачу сравнения сходства с эмбеддингами промптов, полученными из текстовых описаний, визуальных примеров или встроенного словаря. Для обеспечения эффективного рассуждения с открытым словарем платформа включает Перепараметризуемое Выравнивание Области и Текста (RepRTA) для текстового промптинга с нулевыми накладными расходами, Семантически-Активируемый Кодировщик Визуальных Промптов (SAVPE) для сегментации по примерам и Ленивый Контраст Промптов Областей для автономного вывода. Все модальности промптинга работают в едином пространстве эмбеддингов объектов, позволяя бесшовно переключаться между текстовым, визуальным и полностью автономным режимами сегментации. Многочисленные эксперименты демонстрируют стабильное масштабирование и благоприятный баланс точности и эффективности для моделей разного размера как в режимах с промптами, так и без них. Стратегия обучения использует крупномасштабные наборы данных детекции и локализации с многозадачной оптимизацией и сохраняет полную совместимость с экосистемой Ultralytics для обучения, валидации и развертывания. В целом, YOLOE-26 предлагает практичное и масштабируемое решение для сегментации экземпляров с открытым словарем в реальном времени в динамичных условиях реального мира.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.