MosaicFusion : Les modèles de diffusion comme outils d'augmentation de données pour la segmentation d'instances à grand vocabulaire
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
September 22, 2023
Auteurs: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI
Résumé
Nous présentons MosaicFusion, une approche simple mais efficace d'augmentation de données basée sur la diffusion pour la segmentation d'instances avec un vocabulaire étendu. Notre méthode ne nécessite pas d'entraînement et ne repose sur aucune supervision par étiquettes. Deux conceptions clés nous permettent d'utiliser un modèle de diffusion texte-à-image prêt à l'emploi comme générateur de données utile pour les instances d'objets et les annotations de masques. Premièrement, nous divisons une toile d'image en plusieurs régions et effectuons une seule étape de processus de diffusion pour générer simultanément plusieurs instances, en se basant sur différentes invites textuelles. Deuxièmement, nous obtenons les masques d'instances correspondants en agrégeant les cartes d'attention croisée associées aux invites d'objets à travers les couches et les étapes de diffusion, suivies d'un seuillage simple et d'un traitement de raffinement prenant en compte les contours. Sans fioritures, notre MosaicFusion peut produire une quantité significative de données synthétiques étiquetées pour les catégories rares et nouvelles. Les résultats expérimentaux sur les benchmarks difficiles LVIS à longue traîne et à vocabulaire ouvert démontrent que MosaicFusion peut considérablement améliorer les performances des modèles existants de segmentation d'instances, en particulier pour les catégories rares et nouvelles. Le code sera disponible à l'adresse https://github.com/Jiahao000/MosaicFusion.
English
We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.