Currículo de Difusão: Aprendizado de Currículo Generativo Sintético-para-Real via Difusão Guiada por Imagem
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Autores: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Resumo
Dados de baixa qualidade ou escassos têm representado desafios significativos para o treinamento de redes neurais profundas na prática. Enquanto a tradicional ampliação de dados não pode contribuir com dados muito diferentes, os modelos de difusão abrem uma nova porta para construir uma IA autoevolutiva, gerando dados sintéticos de alta qualidade e diversos por meio de instruções orientadas por texto. No entanto, a orientação apenas por texto não consegue controlar a proximidade das imagens sintéticas em relação às imagens originais, resultando em dados fora da distribuição prejudiciais ao desempenho do modelo. Para superar essa limitação, estudamos a orientação por imagem para alcançar um espectro de interpolações entre imagens sintéticas e reais. Com uma orientação por imagem mais forte, as imagens geradas são semelhantes aos dados de treinamento, porém difíceis de aprender. Enquanto com uma orientação por imagem mais fraca, as imagens sintéticas serão mais fáceis para o modelo, mas contribuirão para uma lacuna de distribuição maior com os dados originais. O amplo espectro de dados gerados nos permite construir um novo "Currículo de Difusão (DisCL)". O DisCL ajusta o nível de orientação por imagem da síntese de imagens para cada etapa de treinamento: identifica e foca em amostras difíceis para o modelo e avalia o nível de orientação mais eficaz das imagens sintéticas para melhorar a aprendizagem de dados difíceis. Aplicamos o DisCL a duas tarefas desafiadoras: classificação de cauda longa (LT) e aprendizado a partir de dados de baixa qualidade. Ele se concentra em imagens de baixa orientação de alta qualidade para aprender características prototípicas como um aquecimento para a aprendizagem de imagens de alta orientação que podem ser carentes de diversidade ou qualidade. Experimentos extensos demonstram um ganho de 2,7% e 2,1% na macro precisão fora da distribuição (OOD) e dentro da distribuição (ID) ao aplicar o DisCL ao conjunto de dados iWildCam. No ImageNet-LT, o DisCL melhora a precisão da classe de cauda do modelo base de 4,4% para 23,64% e resulta em um aumento de 4,02% na precisão de todas as classes.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary