UFO:オープンエンド言語インターフェースを介した細粒度視覚知覚の統合アプローチ
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
著者: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
要旨
汎用モデルは、言語タスクと視覚言語タスクの両方で顕著な成功を収め、統一されたモデリングの可能性を示しています。しかし、検出やセグメンテーションのような細粒度の知覚タスクをこれらのモデルに効果的に統合することは、依然として重要な課題です。これは主に、これらのタスクがしばしばタスク固有の設計やアーキテクチャに大きく依存しており、モデリングプロセスを複雑にするためです。この課題に対処するため、我々は\oursを提案します。これは、オープンエンドの言語インターフェースを通じて細粒度の視覚知覚タスクを統合するフレームワークです。すべての知覚ターゲットを言語空間に変換することで、\oursはオブジェクトレベルの検出、ピクセルレベルのセグメンテーション、および画像レベルの視覚言語タスクを単一のモデルに統合します。さらに、セグメンテーションタスクをサポートするために、言語インターフェースのみに依存する新しい埋め込み検索アプローチを導入します。我々のフレームワークは、細粒度の知覚と視覚言語タスクの間のギャップを埋め、複雑なタスク固有の設計を必要とする方法と同等またはそれ以上の性能を達成しながら、アーキテクチャ設計とトレーニング戦略を大幅に簡素化します。5つの標準的な視覚知覚データセットでのマルチタスクトレーニング後、\oursはCOCOインスタンスセグメンテーションで12.3 mAP、ADE20Kセマンティックセグメンテーションで3.3 mIoUを達成し、以前の最先端の汎用モデルを上回りました。さらに、我々の方法は既存のMLLMとシームレスに統合され、細粒度の知覚能力と高度な言語能力を効果的に組み合わせることで、推論セグメンテーションのようなより挑戦的なタスクを可能にします。コードとモデルは公開されます。
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary