ChatPaper.aiChatPaper

MosaicFusion: 大語彙インスタンスセグメンテーションのためのデータ拡張手法としての拡散モデル

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

September 22, 2023
著者: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI

要旨

本論文では、大語彙インスタンスセグメンテーションのためのシンプルかつ効果的な拡散モデルベースのデータ拡張手法「MosaicFusion」を提案します。本手法はトレーニング不要であり、ラベル監視にも依存しません。既存のテキスト-to-画像拡散モデルを有用なデータセット生成器として活用するために、2つの重要な設計を採用しています。第一に、画像キャンバスを複数の領域に分割し、異なるテキストプロンプトを条件として単一の拡散プロセスを実行することで、複数のインスタンスを同時に生成します。第二に、オブジェクトプロンプトに関連するクロスアテンションマップを層間および拡散タイムステップにわたって集約し、単純なしきい値処理とエッジ認識型のリファインメント処理を行うことで、対応するインスタンスマスクを取得します。特別な工夫を加えることなく、MosaicFusionは希少カテゴリや新規カテゴリの両方に対して大量の合成ラベル付きデータを生成できます。挑戦的なLVISロングテールおよびオープン語彙ベンチマークでの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能、特に希少カテゴリや新規カテゴリにおいて大幅に向上させられることを示しています。コードはhttps://github.com/Jiahao000/MosaicFusionで公開予定です。
English
We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.
PDF91December 15, 2024