MosaicFusion: Modelos de Difusão como Ampliadores de Dados para Segmentação de Instâncias com Grande Vocabulário

Resumo

Apresentamos o MosaicFusion, uma abordagem simples, porém eficaz, de aumento de dados baseada em difusão para segmentação de instâncias com grande vocabulário. Nosso método é livre de treinamento e não depende de qualquer supervisão de rótulos. Dois projetos-chave nos permitem empregar um modelo de difusão texto-para-imagem pronto para uso como um gerador de conjuntos de dados útil para instâncias de objetos e anotações de máscaras. Primeiro, dividimos uma tela de imagem em várias regiões e realizamos uma única rodada do processo de difusão para gerar múltiplas instâncias simultaneamente, condicionadas a diferentes prompts de texto. Segundo, obtemos as máscaras de instância correspondentes agregando mapas de atenção cruzada associados aos prompts de objetos em várias camadas e etapas de difusão, seguidos por um simples limiar e processamento de refinamento sensível às bordas. Sem recursos adicionais, nosso MosaicFusion pode produzir uma quantidade significativa de dados sintéticos rotulados tanto para categorias raras quanto para novas. Resultados experimentais nos desafiantes benchmarks LVIS de cauda longa e vocabulário aberto demonstram que o MosaicFusion pode melhorar significativamente o desempenho dos modelos existentes de segmentação de instâncias, especialmente para categorias raras e novas. O código será liberado em https://github.com/Jiahao000/MosaicFusion.

English

We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.

MosaicFusion: Modelos de Difusão como Ampliadores de Dados para Segmentação de Instâncias com Grande Vocabulário

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

Resumo

Support