Диффузионная учебная программа: обучение генеративной программе от синтетического к реальному через диффузию, управляемую изображением.
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Авторы: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Аннотация
Низкокачественные или ограниченные данные представляют существенные вызовы для обучения глубоких нейронных сетей на практике. В то время как классическое дополнение данных не способно предоставить совершенно новые данные, модели диффузии открывают новые возможности для создания саморазвивающегося искусственного интеллекта путем генерации высококачественных и разнообразных синтетических данных с помощью текстовых подсказок. Однако только текстовое руководство не способно контролировать близость синтетических изображений к оригинальным изображениям, что приводит к появлению данных вне распределения, негативно влияющих на производительность модели. Для преодоления этого ограничения мы исследуем руководство по изображениям для достижения спектра интерполяций между синтетическими и реальными изображениями. С более сильным руководством по изображениям сгенерированные изображения похожи на обучающие данные, но сложны для обучения. В то время как с более слабым руководством по изображениям синтетические изображения будут легче для модели, но приведут к большему разрыву в распределении с оригинальными данными. Сгенерированный полный спектр данных позволяет нам создать новую "Учебную программу диффузии (DisCL)". DisCL корректирует уровень руководства по изображениям для синтеза изображений на каждом этапе обучения: он выявляет и сосредотачивается на сложных примерах для модели и оценивает наиболее эффективный уровень руководства синтетическими изображениями для улучшения обучения на сложных данных. Мы применяем DisCL к двум сложным задачам: классификации с длинным хвостом (LT) и обучению на низкокачественных данных. Он сосредотачивается на изображениях с более низким уровнем руководства высокого качества для изучения прототипических особенностей как разминку перед обучением на изображениях с более высоким уровнем руководства, которые могут быть слабы по разнообразию или качеству. Обширные эксперименты демонстрируют прирост в 2,7% и 2,1% в макро-точности OOD и ID при применении DisCL к набору данных iWildCam. На ImageNet-LT DisCL повышает точность классификации хвостовой части базовой модели с 4,4% до 23,64% и приводит к улучшению точности по всем классам на 4,02%.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary