Vers une génération visuelle de RA sans guidage via l'alignement contrastif conditionnel.
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
October 12, 2024
Auteurs: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI
Résumé
Le Guidage sans Classificateur (CFG) est une technique cruciale pour améliorer la qualité des échantillons des modèles génératifs visuels. Cependant, dans la génération multimodale autoregressive (AR), le CFG introduit des incohérences de conception entre le langage et le contenu visuel, contredisant la philosophie de conception visant à unifier différentes modalités pour l'AR visuel. Motivés par les méthodes d'alignement des modèles linguistiques, nous proposons l'Alignement Contrastif Conditionnel (CCA) pour faciliter la génération visuelle AR sans guidage avec des performances élevées et analyser sa connexion théorique avec les méthodes d'échantillonnage guidé. Contrairement aux méthodes de guidage qui modifient le processus d'échantillonnage pour atteindre la distribution d'échantillonnage idéale, le CCA ajuste directement les modèles pré-entraînés pour correspondre à la même distribution cible. Les résultats expérimentaux montrent que le CCA peut améliorer significativement les performances sans guidage de tous les modèles testés avec seulement une époque de fine-tuning (environ 1\% des époques de pré-entraînement) sur l'ensemble de données de pré-entraînement, à la hauteur des méthodes d'échantillonnage guidé. Cela élimine largement le besoin d'échantillonnage guidé dans la génération visuelle AR et réduit le coût d'échantillonnage de moitié. De plus, en ajustant les paramètres d'entraînement, le CCA peut atteindre des compromis entre la diversité des échantillons et la fidélité similaires au CFG. Cela confirme expérimentalement la forte connexion théorique entre l'alignement ciblé sur le langage et les méthodes de guidage ciblées sur le visuel, unifiant deux domaines de recherche précédemment indépendants. Code et poids du modèle : https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the
sample quality of visual generative models. However, in autoregressive (AR)
multi-modal generation, CFG introduces design inconsistencies between language
and visual content, contradicting the design philosophy of unifying different
modalities for visual AR. Motivated by language model alignment methods, we
propose Condition Contrastive Alignment (CCA) to facilitate
guidance-free AR visual generation with high performance and analyze its
theoretical connection with guided sampling methods. Unlike guidance methods
that alter the sampling process to achieve the ideal sampling distribution, CCA
directly fine-tunes pretrained models to fit the same distribution target.
Experimental results show that CCA can significantly enhance the guidance-free
performance of all tested models with just one epoch of fine-tuning (sim 1\%
of pretraining epochs) on the pretraining dataset, on par with guided sampling
methods. This largely removes the need for guided sampling in AR visual
generation and cuts the sampling cost by half. Moreover, by adjusting training
parameters, CCA can achieve trade-offs between sample diversity and fidelity
similar to CFG. This experimentally confirms the strong theoretical connection
between language-targeted alignment and visual-targeted guidance methods,
unifying two previously independent research fields. Code and model weights:
https://github.com/thu-ml/CCA.Summary
AI-Generated Summary