Hacia la Generación Visual de Realidad Aumentada sin Guía a través de la Alineación Contrastiva de Condiciones
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
October 12, 2024
Autores: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI
Resumen
La Orientación sin Clasificador (CFG, por sus siglas en inglés) es una técnica crítica para mejorar la calidad de muestra de los modelos generativos visuales. Sin embargo, en la generación multimodal autoregresiva (AR), CFG introduce inconsistencias de diseño entre el lenguaje y el contenido visual, contradiciendo la filosofía de diseño de unificar diferentes modalidades para AR visual. Motivados por los métodos de alineación de modelos de lenguaje, proponemos el Alineamiento Contrastivo Condicional (CCA) para facilitar la generación visual AR sin orientación con un alto rendimiento y analizar su conexión teórica con los métodos de muestreo guiado. A diferencia de los métodos de orientación que modifican el proceso de muestreo para lograr la distribución de muestreo ideal, CCA ajusta directamente los modelos preentrenados para adaptarse al mismo objetivo de distribución. Los resultados experimentales muestran que CCA puede mejorar significativamente el rendimiento sin orientación de todos los modelos probados con solo una época de ajuste fino (aprox. 1\% de las épocas de preentrenamiento) en el conjunto de datos de preentrenamiento, al nivel de los métodos de muestreo guiado. Esto elimina en gran medida la necesidad de muestreo guiado en la generación visual AR y reduce el costo de muestreo a la mitad. Además, ajustando los parámetros de entrenamiento, CCA puede lograr compensaciones entre la diversidad de muestras y la fidelidad similar a CFG. Esto confirma experimentalmente la sólida conexión teórica entre la alineación dirigida al lenguaje y los métodos de orientación visual, unificando dos campos de investigación previamente independientes. Código y pesos del modelo: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the
sample quality of visual generative models. However, in autoregressive (AR)
multi-modal generation, CFG introduces design inconsistencies between language
and visual content, contradicting the design philosophy of unifying different
modalities for visual AR. Motivated by language model alignment methods, we
propose Condition Contrastive Alignment (CCA) to facilitate
guidance-free AR visual generation with high performance and analyze its
theoretical connection with guided sampling methods. Unlike guidance methods
that alter the sampling process to achieve the ideal sampling distribution, CCA
directly fine-tunes pretrained models to fit the same distribution target.
Experimental results show that CCA can significantly enhance the guidance-free
performance of all tested models with just one epoch of fine-tuning (sim 1\%
of pretraining epochs) on the pretraining dataset, on par with guided sampling
methods. This largely removes the need for guided sampling in AR visual
generation and cuts the sampling cost by half. Moreover, by adjusting training
parameters, CCA can achieve trade-offs between sample diversity and fidelity
similar to CFG. This experimentally confirms the strong theoretical connection
between language-targeted alignment and visual-targeted guidance methods,
unifying two previously independent research fields. Code and model weights:
https://github.com/thu-ml/CCA.Summary
AI-Generated Summary