Curriculum di Diffusione: Apprendimento del Curriculum Generativo da Sintetico a Reale tramite Diffusione Guidata dall'Immagine
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Autori: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Abstract
I dati di bassa qualità o scarsi hanno posto significativi ostacoli per l'addestramento delle reti neurali profonde in pratica. Mentre l'aumento classico dei dati non può contribuire a dati molto diversi, i modelli di diffusione aprono una nuova porta per costruire un'intelligenza artificiale auto-evolutiva generando dati sintetici di alta qualità e diversificati attraverso prompt guidati dal testo. Tuttavia, solo la guida basata sul testo non può controllare la vicinanza delle immagini sintetiche alle immagini originali, portando a dati fuori distribuzione dannosi per le prestazioni del modello. Per superare questa limitazione, studiamo la guida delle immagini per ottenere uno spettro di interpolazioni tra immagini sintetiche e reali. Con una guida delle immagini più forte, le immagini generate sono simili ai dati di addestramento ma difficili da apprendere. Mentre con una guida delle immagini più debole, le immagini sintetiche saranno più facili per il modello ma contribuiranno a una maggiore discrepanza di distribuzione rispetto ai dati originali. Il pieno spettro di dati generati ci consente di costruire un nuovo "Curriculum di Diffusione (DisCL)". DisCL regola il livello di guida delle immagini della sintesi delle immagini per ciascuna fase di addestramento: identifica e si concentra sui campioni difficili per il modello e valuta il livello di guida più efficace delle immagini sintetiche per migliorare l'apprendimento dei dati difficili. Applichiamo DisCL a due compiti impegnativi: classificazione a coda lunga (LT) e apprendimento da dati di bassa qualità. Si concentra su immagini a bassa guida di alta qualità per apprendere caratteristiche prototipiche come riscaldamento prima di apprendere immagini ad alta guida che potrebbero essere carenti di diversità o qualità. Estesi esperimenti mostrano un aumento del 2,7% e del 2,1% rispettivamente nell'accuratezza macro OOD e ID quando si applica DisCL al dataset iWildCam. Su ImageNet-LT, DisCL migliora l'accuratezza della classe di coda del modello base dal 4,4% al 23,64% e porta a un miglioramento dell'accuratezza di tutte le classi del 4,02%.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary