ChatPaper.aiChatPaper

Curriculum di Diffusione: Apprendimento del Curriculum Generativo da Sintetico a Reale tramite Diffusione Guidata dall'Immagine

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

October 17, 2024
Autori: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI

Abstract

I dati di bassa qualità o scarsi hanno posto significativi ostacoli per l'addestramento delle reti neurali profonde in pratica. Mentre l'aumento classico dei dati non può contribuire a dati molto diversi, i modelli di diffusione aprono una nuova porta per costruire un'intelligenza artificiale auto-evolutiva generando dati sintetici di alta qualità e diversificati attraverso prompt guidati dal testo. Tuttavia, solo la guida basata sul testo non può controllare la vicinanza delle immagini sintetiche alle immagini originali, portando a dati fuori distribuzione dannosi per le prestazioni del modello. Per superare questa limitazione, studiamo la guida delle immagini per ottenere uno spettro di interpolazioni tra immagini sintetiche e reali. Con una guida delle immagini più forte, le immagini generate sono simili ai dati di addestramento ma difficili da apprendere. Mentre con una guida delle immagini più debole, le immagini sintetiche saranno più facili per il modello ma contribuiranno a una maggiore discrepanza di distribuzione rispetto ai dati originali. Il pieno spettro di dati generati ci consente di costruire un nuovo "Curriculum di Diffusione (DisCL)". DisCL regola il livello di guida delle immagini della sintesi delle immagini per ciascuna fase di addestramento: identifica e si concentra sui campioni difficili per il modello e valuta il livello di guida più efficace delle immagini sintetiche per migliorare l'apprendimento dei dati difficili. Applichiamo DisCL a due compiti impegnativi: classificazione a coda lunga (LT) e apprendimento da dati di bassa qualità. Si concentra su immagini a bassa guida di alta qualità per apprendere caratteristiche prototipiche come riscaldamento prima di apprendere immagini ad alta guida che potrebbero essere carenti di diversità o qualità. Estesi esperimenti mostrano un aumento del 2,7% e del 2,1% rispettivamente nell'accuratezza macro OOD e ID quando si applica DisCL al dataset iWildCam. Su ImageNet-LT, DisCL migliora l'accuratezza della classe di coda del modello base dal 4,4% al 23,64% e porta a un miglioramento dell'accuratezza di tutte le classi del 4,02%.
English
Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images' proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Summary

AI-Generated Summary

PDF173November 16, 2024