ChatPaper.aiChatPaper

Verso la Generazione Visiva AR Senza Guida tramite Allineamento Contrastivo delle Condizioni

Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

October 12, 2024
Autori: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI

Abstract

La Guida Senza Classificatore (CFG) è una tecnica critica per migliorare la qualità del campione dei modelli generativi visivi. Tuttavia, nella generazione multimodale autoregressiva (AR), CFG introduce inconsistenze progettuali tra il linguaggio e i contenuti visivi, contraddicendo la filosofia progettuale di unificare diverse modalità per l'AR visivo. Motivati dai metodi di allineamento dei modelli linguistici, proponiamo l'Allineamento Contrastivo Condizionale (CCA) per facilitare la generazione visiva AR senza guida con elevate prestazioni e analizzare la sua connessione teorica con i metodi di campionamento guidato. A differenza dei metodi di guida che modificano il processo di campionamento per raggiungere la distribuzione ideale del campionamento, CCA ottimizza direttamente i modelli preaddestrati per adattarsi allo stesso obiettivo di distribuzione. I risultati sperimentali mostrano che CCA può migliorare significativamente le prestazioni senza guida di tutti i modelli testati con un solo epoch di raffinamento (circa l'1\% degli epoch di preaddestramento) sul dataset di preaddestramento, alla pari con i metodi di campionamento guidato. Ciò elimina in gran parte la necessità di campionamento guidato nella generazione visiva AR e riduce del 50\% il costo del campionamento. Inoltre, regolando i parametri di addestramento, CCA può ottenere compromessi tra diversità del campione e fedeltà simili a CFG. Questo conferma sperimentalmente la forte connessione teorica tra l'allineamento mirato al linguaggio e i metodi di guida mirati alla visione, unificando due campi di ricerca precedentemente indipendenti. Codice e pesi del modello: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose Condition Contrastive Alignment (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning (sim 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA.

Summary

AI-Generated Summary

PDF52November 16, 2024