ChatPaper.aiChatPaper

YOLOE-26: YOLO26과 YOLOE의 통합을 통한 실시간 오픈-보커블러리 인스턴스 분할

YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

January 29, 2026
저자: Ranjan Sapkota, Manoj Karkee
cs.AI

초록

본 논문은 실시간 오픈 보컬러리 인스턴스 분할을 위해 배포 최적화된 YOLO26(또는 YOLOv26) 아키텍처와 YOLOE의 오픈 보컬러리 학습 패러다임을 통합한 통합 프레임워크인 YOLOE-26을 제안한다. NMS-free 및 end-to-end 방식으로 설계된 YOLOv26을 기반으로, 제안된 방법은 YOLO 계열의 특징적인 효율성과 결정론을 유지하면서 폐쇄형 인식(closed-set recognition)을 넘어선 기능을 확장한다. YOLOE-26은 컨볼루션 백본과 PAN/FPN 스타일의 다중 스케일 특징 추출 후 end-to-end 회귀 및 인스턴스 분할 헤드를 사용한다. 핵심 아키텍처 기여는 고정된 클래스 로짓(logits)을 객체 임베딩 헤드로 대체하여, 분류 작업을 텍스트 설명, 시각적 예시 또는 내장 어휘로부터 유도된 프롬프트 임베딩과의 유사도 매칭 문제로 재정의한 것이다. 효율적인 오픈 보컬러리 추론을 위해 본 프레임워크는 오버헤드 없이 텍스트 프롬프팅을 가능하게 하는 재매개변수화 가능 지역-텍스트 정렬(RepRTA), 예시 기반 분할을 위한 의미론적 활성화 시각 프롬프트 인코더(SAVPE), 그리고 프롬프트 없는 추론을 위한 Lazy Region Prompt Contrast를 통합하였다. 모든 프롬프팅 방식은 통합된 객체 임베딩 공간 내에서 작동하여 텍스트 프롬프트, 시각 프롬프트 및 완전 자율 분할 간 원활한 전환이 가능하다. 다양한 실험을 통해 프롬프트 사용 및 미사용 설정 모두에서 모델 크기별로 일관된 확장성과 유리한 정확도-효율성 트레이드오프를 입증하였다. 학습 전략은 대규모 감지 및 그라운딩 데이터셋과 다중 작업 최적화를 활용하며, Ultralytics 생태계의 학습, 검증 및 배포와 완전히 호환된다. 전반적으로 YOLOE-26은 동적 실제 환경에서 실시간 오픈 보컬러리 인스턴스 분할을 위한 실용적이고 확장 가능한 솔루션을 제공한다.
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.
PDF12February 7, 2026