MosaicFusion: Modelli di Diffusione come Aumentatori di Dati per la Segmentazione di Istanza con Ampio Vocabolario
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
September 22, 2023
Autori: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI
Abstract
Presentiamo MosaicFusion, un approccio semplice ma efficace basato sulla diffusione per l'aumento dei dati nella segmentazione di istanze con vocabolario ampio. Il nostro metodo è privo di addestramento e non si affida a supervisione tramite etichette. Due design chiave ci permettono di utilizzare un modello di diffusione testo-immagine già disponibile come generatore di dataset utile per istanze di oggetti e annotazioni di maschere. In primo luogo, dividiamo una tela immagine in diverse regioni ed eseguiamo un singolo ciclo di processo di diffusione per generare più istanze contemporaneamente, condizionando su diversi prompt testuali. In secondo luogo, otteniamo le corrispondenti maschere delle istanze aggregando mappe di cross-attention associate ai prompt degli oggetti attraverso i livelli e i passaggi temporali di diffusione, seguiti da una semplice soglia e da un processo di raffinamento sensibile ai bordi. Senza fronzoli, il nostro MosaicFusion può produrre una quantità significativa di dati sintetici etichettati sia per categorie rare che nuove. I risultati sperimentali sui benchmark impegnativi LVIS a coda lunga e a vocabolario aperto dimostrano che MosaicFusion può migliorare significativamente le prestazioni dei modelli esistenti di segmentazione di istanze, specialmente per categorie rare e nuove. Il codice sarà rilasciato su https://github.com/Jiahao000/MosaicFusion.
English
We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.