MosaicFusion: Modelos de Difusão como Ampliadores de Dados para Segmentação de Instâncias com Grande Vocabulário
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
September 22, 2023
Autores: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI
Resumo
Apresentamos o MosaicFusion, uma abordagem simples, porém eficaz, de aumento de dados baseada em difusão para segmentação de instâncias com grande vocabulário. Nosso método é livre de treinamento e não depende de qualquer supervisão de rótulos. Dois projetos-chave nos permitem empregar um modelo de difusão texto-para-imagem pronto para uso como um gerador de conjuntos de dados útil para instâncias de objetos e anotações de máscaras. Primeiro, dividimos uma tela de imagem em várias regiões e realizamos uma única rodada do processo de difusão para gerar múltiplas instâncias simultaneamente, condicionadas a diferentes prompts de texto. Segundo, obtemos as máscaras de instância correspondentes agregando mapas de atenção cruzada associados aos prompts de objetos em várias camadas e etapas de difusão, seguidos por um simples limiar e processamento de refinamento sensível às bordas. Sem recursos adicionais, nosso MosaicFusion pode produzir uma quantidade significativa de dados sintéticos rotulados tanto para categorias raras quanto para novas. Resultados experimentais nos desafiantes benchmarks LVIS de cauda longa e vocabulário aberto demonstram que o MosaicFusion pode melhorar significativamente o desempenho dos modelos existentes de segmentação de instâncias, especialmente para categorias raras e novas. O código será liberado em https://github.com/Jiahao000/MosaicFusion.
English
We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.