ChatPaper.aiChatPaper

Currículo de Difusão: Aprendizado de Currículo Generativo Sintético-para-Real via Difusão Guiada por Imagem

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

October 17, 2024
Autores: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI

Resumo

Dados de baixa qualidade ou escassos têm representado desafios significativos para o treinamento de redes neurais profundas na prática. Enquanto a tradicional ampliação de dados não pode contribuir com dados muito diferentes, os modelos de difusão abrem uma nova porta para construir uma IA autoevolutiva, gerando dados sintéticos de alta qualidade e diversos por meio de instruções orientadas por texto. No entanto, a orientação apenas por texto não consegue controlar a proximidade das imagens sintéticas em relação às imagens originais, resultando em dados fora da distribuição prejudiciais ao desempenho do modelo. Para superar essa limitação, estudamos a orientação por imagem para alcançar um espectro de interpolações entre imagens sintéticas e reais. Com uma orientação por imagem mais forte, as imagens geradas são semelhantes aos dados de treinamento, porém difíceis de aprender. Enquanto com uma orientação por imagem mais fraca, as imagens sintéticas serão mais fáceis para o modelo, mas contribuirão para uma lacuna de distribuição maior com os dados originais. O amplo espectro de dados gerados nos permite construir um novo "Currículo de Difusão (DisCL)". O DisCL ajusta o nível de orientação por imagem da síntese de imagens para cada etapa de treinamento: identifica e foca em amostras difíceis para o modelo e avalia o nível de orientação mais eficaz das imagens sintéticas para melhorar a aprendizagem de dados difíceis. Aplicamos o DisCL a duas tarefas desafiadoras: classificação de cauda longa (LT) e aprendizado a partir de dados de baixa qualidade. Ele se concentra em imagens de baixa orientação de alta qualidade para aprender características prototípicas como um aquecimento para a aprendizagem de imagens de alta orientação que podem ser carentes de diversidade ou qualidade. Experimentos extensos demonstram um ganho de 2,7% e 2,1% na macro precisão fora da distribuição (OOD) e dentro da distribuição (ID) ao aplicar o DisCL ao conjunto de dados iWildCam. No ImageNet-LT, o DisCL melhora a precisão da classe de cauda do modelo base de 4,4% para 23,64% e resulta em um aumento de 4,02% na precisão de todas as classes.
English
Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images' proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Summary

AI-Generated Summary

PDF173November 16, 2024