MosaicFusion: Modelli di Diffusione come Aumentatori di Dati per la Segmentazione di Istanza con Ampio Vocabolario

Abstract

Presentiamo MosaicFusion, un approccio semplice ma efficace basato sulla diffusione per l'aumento dei dati nella segmentazione di istanze con vocabolario ampio. Il nostro metodo è privo di addestramento e non si affida a supervisione tramite etichette. Due design chiave ci permettono di utilizzare un modello di diffusione testo-immagine già disponibile come generatore di dataset utile per istanze di oggetti e annotazioni di maschere. In primo luogo, dividiamo una tela immagine in diverse regioni ed eseguiamo un singolo ciclo di processo di diffusione per generare più istanze contemporaneamente, condizionando su diversi prompt testuali. In secondo luogo, otteniamo le corrispondenti maschere delle istanze aggregando mappe di cross-attention associate ai prompt degli oggetti attraverso i livelli e i passaggi temporali di diffusione, seguiti da una semplice soglia e da un processo di raffinamento sensibile ai bordi. Senza fronzoli, il nostro MosaicFusion può produrre una quantità significativa di dati sintetici etichettati sia per categorie rare che nuove. I risultati sperimentali sui benchmark impegnativi LVIS a coda lunga e a vocabolario aperto dimostrano che MosaicFusion può migliorare significativamente le prestazioni dei modelli esistenti di segmentazione di istanze, specialmente per categorie rare e nuove. Il codice sarà rilasciato su https://github.com/Jiahao000/MosaicFusion.

English

We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.

MosaicFusion: Modelli di Diffusione come Aumentatori di Dati per la Segmentazione di Istanza con Ampio Vocabolario

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

Abstract

Support