Currículo de Difusión: Aprendizaje de Currículo Generativo Sintético-a-Real a través de Difusión Guiada por Imagen.
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Autores: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Resumen
Los datos de baja calidad o escasos han planteado desafíos significativos para el entrenamiento de redes neuronales profundas en la práctica. Mientras que la ampliación de datos clásica no puede aportar datos nuevos muy diferentes, los modelos de difusión abren una nueva puerta para construir una IA autoevolutiva generando datos sintéticos de alta calidad y diversos a través de indicaciones guiadas por texto. Sin embargo, la guía solo por texto no puede controlar la proximidad de las imágenes sintéticas a las imágenes originales, lo que resulta en datos fuera de distribución perjudiciales para el rendimiento del modelo. Para superar esta limitación, estudiamos la guía de imágenes para lograr un espectro de interpolaciones entre imágenes sintéticas y reales. Con una guía de imagen más fuerte, las imágenes generadas son similares a los datos de entrenamiento pero difíciles de aprender. Mientras que con una guía de imagen más débil, las imágenes sintéticas serán más fáciles para el modelo pero contribuirán a una brecha de distribución más grande con los datos originales. El espectro completo de datos generado nos permite construir un nuevo "Currículo de Difusión (DisCL)". DisCL ajusta el nivel de guía de imagen de la síntesis de imágenes para cada etapa de entrenamiento: identifica y se enfoca en muestras difíciles para el modelo y evalúa el nivel de guía más efectivo de las imágenes sintéticas para mejorar el aprendizaje de datos difíciles. Aplicamos DisCL a dos tareas desafiantes: clasificación de larga cola (LT) y aprendizaje a partir de datos de baja calidad. Se enfoca en imágenes de baja guía de alta calidad para aprender características prototípicas como calentamiento antes de aprender imágenes de alta guía que podrían ser débiles en diversidad o calidad. Experimentos extensos muestran una mejora del 2.7% y 2.1% en macro precisión OOD e ID al aplicar DisCL al conjunto de datos iWildCam. En ImageNet-LT, DisCL mejora la precisión de las clases de cola del modelo base del 4.4% al 23.64% y conduce a una mejora del 4.02% en la precisión de todas las clases.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary