ChatPaper.aiChatPaper

Richtung Leitfadenfreie AR-Visuelle Generierung durch Bedingte Kontrastive Ausrichtung

Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

October 12, 2024
Autoren: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI

Zusammenfassung

Classifier-Free Guidance (CFG) ist eine entscheidende Technik zur Verbesserung der Stichprobenqualität von visuellen generativen Modellen. Allerdings führt CFG in der autoregressiven (AR) multimodalen Generierung zu Designinkonsistenzen zwischen Sprache und visuellem Inhalt, die im Widerspruch zur Designphilosophie der Vereinheitlichung verschiedener Modalitäten für visuelle AR stehen. Angeregt durch Methoden zur Ausrichtung von Sprachmodellen schlagen wir Condition Contrastive Alignment (CCA) vor, um die leitungslose AR-Visuallgenerierung mit hoher Leistung zu erleichtern und ihre theoretische Verbindung mit geleiteten Abtastmethoden zu analysieren. Im Gegensatz zu Leitungsverfahren, die den Abtastprozess verändern, um die ideale Abtastverteilung zu erreichen, feinabstimmt CCA direkt vortrainierte Modelle, um dieselbe Zielverteilung anzupassen. Experimentelle Ergebnisse zeigen, dass CCA die leitungslose Leistung aller getesteten Modelle signifikant verbessern kann, mit nur einer Feinabstimmungsepisode (ca. 1\% der Vortrainingsepochen) auf dem Vortrainingsdatensatz, vergleichbar mit geleiteten Abtastmethoden. Dies reduziert weitgehend die Notwendigkeit für geleitete Abtastung in der AR-Visuallgenerierung und halbiert die Abtastkosten. Darüber hinaus kann CCA durch Anpassung der Trainingsparameter Kompromisse zwischen Stichprobenvielfalt und -treue erreichen, ähnlich wie CFG. Dies bestätigt experimentell die starke theoretische Verbindung zwischen sprachorientierter Ausrichtung und visuell orientierten Leitungsverfahren und vereinigt zwei zuvor unabhängige Forschungsfelder. Code und Modellgewichte: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose Condition Contrastive Alignment (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning (sim 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA.

Summary

AI-Generated Summary

PDF52November 16, 2024