ChatPaper.aiChatPaper

YOLOE-26: YOLO26とYOLOEの統合による実時間オープン語彙インスタンスセグメンテーション

YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

January 29, 2026
著者: Ranjan Sapkota, Manoj Karkee
cs.AI

要旨

本論文は、YOLO26(またはYOLOv26)のデプロイ最適化アーキテクチャとYOLOEのオープン語彙学習パラダイムを統合した、リアルタイムオープン語彙インスタンスセグメンテーションのための統一フレームワーク「YOLOE-26」を提案する。NMS不要のエンドツーエンド設計を特徴とするYOLOv26に基づく本手法は、YOLOファミリーの効率性と決定性を維持しつつ、その能力を閉じた集合認識の範囲を超えて拡張する。YOLOE-26は、畳み込みバックボーンとPAN/FPNスタイルのマルチスケール特徴量集約を採用し、その後エンドツーエンドの回帰ヘッドとインスタンスセグメンテーションヘッドを接続する。主要なアーキテクチャ上の貢献は、固定のクラスロジットをオブジェクト埋め込みヘッドに置き換えた点にあり、分類をテキスト記述、視覚的例、または組み込み語彙から導出されたプロンプト埋め込みとの類似度マッチングとして定式化する。効率的なオープン語彙推論を実現するため、本フレームワークは、オーバーヘッドなしのテキストプロンプティングを可能にする再パラメータ化可能な領域-テキスト調整(RepRTA)、例示誘導セグメンテーションのための意味活性化視覚プロンプトエンコーダ(SAVPE)、およびプロンプト不要推論のためのLazy Region Prompt Contrastを組み込んでいる。全てのプロンプト手法は統一されたオブジェクト埋め込み空間内で動作し、テキストプロンプト、視覚プロンプト、完全自律セグメンテーション間のシームレスな切り替えを可能にする。大規模な実験により、プロンプト有無の両設定において、モデルサイズにわたる一貫したスケーリング挙動と良好な精度と効率性のトレードオフが実証された。訓練戦略は、大規模検出及びグラウンディングデータセットをマルチタスク最適化で活用し、Ultralyticsエコシステムとの完全な互換性を訓練、検証、デプロイの各段階で維持する。総合的に、YOLOE-26は、動的で実世界の環境におけるリアルタイムオープン語彙インスタンスセグメンテーションのための実用的かつスケーラブルなソリューションを提供する。
English
This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.
PDF12February 7, 2026