К Направленной Генерации Визуальных AR без Руководства через Условное Контрастное Выравнивание
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
October 12, 2024
Авторы: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI
Аннотация
Метод руководства без классификатора (CFG) является критической техникой для улучшения качества выборки визуальных генеративных моделей. Однако в авторегрессивной (AR) мультимодальной генерации CFG вносит дизайнерские несоответствия между языком и визуальным контентом, противоречащие философии объединения различных модальностей для визуальной AR. Вдохновленные методами выравнивания моделей языка, мы предлагаем Метод условного контрастного выравнивания (CCA) для облегчения руководства-бесплатной AR визуальной генерации с высокой производительностью и анализируем его теоретическую связь с методами руководимой выборки. В отличие от методов руководства, изменяющих процесс выборки для достижения идеального распределения выборки, CCA напрямую донастраивает предварительно обученные модели для соответствия тому же целевому распределению. Экспериментальные результаты показывают, что CCA значительно улучшает производительность руководства-бесплатной всех протестированных моделей всего за одну эпоху донастройки (примерно 1\% от эпох предварительного обучения) на наборе данных предварительного обучения, наравне с методами руководимой выборки. Это в значительной степени устраняет необходимость в руководимой выборке в AR визуальной генерации и сокращает стоимость выборки практически вдвое. Более того, путем настройки параметров обучения CCA может достигать компромиссов между разнообразием выборки и достоверностью, аналогично CFG. Это экспериментально подтверждает сильную теоретическую связь между методами выравнивания, ориентированными на язык, и методами руководства, ориентированными на визуальное содержимое, объединяя две ранее независимые исследовательские области. Код и веса модели: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the
sample quality of visual generative models. However, in autoregressive (AR)
multi-modal generation, CFG introduces design inconsistencies between language
and visual content, contradicting the design philosophy of unifying different
modalities for visual AR. Motivated by language model alignment methods, we
propose Condition Contrastive Alignment (CCA) to facilitate
guidance-free AR visual generation with high performance and analyze its
theoretical connection with guided sampling methods. Unlike guidance methods
that alter the sampling process to achieve the ideal sampling distribution, CCA
directly fine-tunes pretrained models to fit the same distribution target.
Experimental results show that CCA can significantly enhance the guidance-free
performance of all tested models with just one epoch of fine-tuning (sim 1\%
of pretraining epochs) on the pretraining dataset, on par with guided sampling
methods. This largely removes the need for guided sampling in AR visual
generation and cuts the sampling cost by half. Moreover, by adjusting training
parameters, CCA can achieve trade-offs between sample diversity and fidelity
similar to CFG. This experimentally confirms the strong theoretical connection
between language-targeted alignment and visual-targeted guidance methods,
unifying two previously independent research fields. Code and model weights:
https://github.com/thu-ml/CCA.