ChatPaper.aiChatPaper

MosaicFusion : Les modèles de diffusion comme outils d'augmentation de données pour la segmentation d'instances à grand vocabulaire

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

September 22, 2023
Auteurs: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI

Résumé

Nous présentons MosaicFusion, une approche simple mais efficace d'augmentation de données basée sur la diffusion pour la segmentation d'instances avec un vocabulaire étendu. Notre méthode ne nécessite pas d'entraînement et ne repose sur aucune supervision par étiquettes. Deux conceptions clés nous permettent d'utiliser un modèle de diffusion texte-à-image prêt à l'emploi comme générateur de données utile pour les instances d'objets et les annotations de masques. Premièrement, nous divisons une toile d'image en plusieurs régions et effectuons une seule étape de processus de diffusion pour générer simultanément plusieurs instances, en se basant sur différentes invites textuelles. Deuxièmement, nous obtenons les masques d'instances correspondants en agrégeant les cartes d'attention croisée associées aux invites d'objets à travers les couches et les étapes de diffusion, suivies d'un seuillage simple et d'un traitement de raffinement prenant en compte les contours. Sans fioritures, notre MosaicFusion peut produire une quantité significative de données synthétiques étiquetées pour les catégories rares et nouvelles. Les résultats expérimentaux sur les benchmarks difficiles LVIS à longue traîne et à vocabulaire ouvert démontrent que MosaicFusion peut considérablement améliorer les performances des modèles existants de segmentation d'instances, en particulier pour les catégories rares et nouvelles. Le code sera disponible à l'adresse https://github.com/Jiahao000/MosaicFusion.
English
We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.
PDF91December 15, 2024