ChatPaper.aiChatPaper

DICEPTION:視覚知覚タスクのための汎用拡散モデル

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

February 24, 2025
著者: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI

要旨

ここでの我々の主な目標は、計算リソースとトレーニングデータの制約内で、複数のタスクに対応できる優れた汎用知覚モデルを作成することです。これを実現するため、数十億枚の画像で事前学習されたテキストから画像への拡散モデルを活用します。我々の網羅的な評価指標は、DICEPTIONが複数の知覚タスクに効果的に対処し、最先端のモデルと同等の性能を達成することを示しています。SAM-vit-hと同等の結果を、そのデータのわずか0.06%(例:600K対1Bのピクセルレベル注釈付き画像)で達成しました。Wangらにインスパイアされ、DICEPTIONは様々な知覚タスクの出力をカラーエンコーディングを用いて定式化します。そして、異なるインスタンスにランダムな色を割り当てる戦略が、エンティティセグメンテーションとセマンティックセグメンテーションの両方で非常に有効であることを示します。様々な知覚タスクを条件付き画像生成として統一することで、事前学習されたテキストから画像へのモデルを最大限に活用できます。その結果、DICEPTIONは、ゼロから学習された従来のモデルと比較して、桁違いに低いコストで効率的にトレーニングできます。他のタスクにモデルを適応させる際には、わずか50枚の画像とパラメータの1%のファインチューニングのみが必要です。DICEPTIONは、視覚的汎用モデルにとって貴重な洞察とより有望なソリューションを提供します。
English
Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models.

Summary

AI-Generated Summary

PDF533February 25, 2025