Rumo à Geração Visual de RA sem Orientação por meio do Alinhamento Contrastivo de Condições
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
October 12, 2024
Autores: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI
Resumo
A Orientação sem Classificador (CFG) é uma técnica crítica para aprimorar a qualidade da amostra de modelos generativos visuais. No entanto, na geração multimodal autoregressiva (AR), a CFG introduz inconsistências de design entre linguagem e conteúdo visual, contradizendo a filosofia de design de unificar diferentes modalidades para AR visual. Motivados por métodos de alinhamento de modelos de linguagem, propomos o Alinhamento Contrastivo Condicional (CCA) para facilitar a geração visual AR sem orientação com alto desempenho e analisar sua conexão teórica com métodos de amostragem orientada. Ao contrário de métodos de orientação que alteram o processo de amostragem para atingir a distribuição ideal de amostragem, o CCA ajusta diretamente modelos pré-treinados para se adequarem ao mesmo alvo de distribuição. Resultados experimentais mostram que o CCA pode aprimorar significativamente o desempenho sem orientação de todos os modelos testados com apenas um época de ajuste fino (aproximadamente 1% das épocas de pré-treinamento) no conjunto de dados de pré-treinamento, em pé de igualdade com os métodos de amostragem orientada. Isso elimina em grande parte a necessidade de amostragem orientada na geração visual AR e reduz o custo de amostragem pela metade. Além disso, ajustando os parâmetros de treinamento, o CCA pode alcançar compensações entre diversidade e fidelidade da amostra semelhantes à CFG. Isso confirma experimentalmente a forte conexão teórica entre o alinhamento direcionado à linguagem e os métodos de orientação visual, unificando dois campos de pesquisa anteriormente independentes. Código e pesos do modelo: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the
sample quality of visual generative models. However, in autoregressive (AR)
multi-modal generation, CFG introduces design inconsistencies between language
and visual content, contradicting the design philosophy of unifying different
modalities for visual AR. Motivated by language model alignment methods, we
propose Condition Contrastive Alignment (CCA) to facilitate
guidance-free AR visual generation with high performance and analyze its
theoretical connection with guided sampling methods. Unlike guidance methods
that alter the sampling process to achieve the ideal sampling distribution, CCA
directly fine-tunes pretrained models to fit the same distribution target.
Experimental results show that CCA can significantly enhance the guidance-free
performance of all tested models with just one epoch of fine-tuning (sim 1\%
of pretraining epochs) on the pretraining dataset, on par with guided sampling
methods. This largely removes the need for guided sampling in AR visual
generation and cuts the sampling cost by half. Moreover, by adjusting training
parameters, CCA can achieve trade-offs between sample diversity and fidelity
similar to CFG. This experimentally confirms the strong theoretical connection
between language-targeted alignment and visual-targeted guidance methods,
unifying two previously independent research fields. Code and model weights:
https://github.com/thu-ml/CCA.Summary
AI-Generated Summary