ChatPaper.aiChatPaper

Miglioramento dell'allineamento di testi lunghi per modelli di diffusione testo-immagine

Improving Long-Text Alignment for Text-to-Image Diffusion Models

October 15, 2024
Autori: Luping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu
cs.AI

Abstract

Il rapido avanzamento dei modelli di diffusione testo-immagine (T2I) ha reso possibile generare risultati senza precedenti da testi forniti. Tuttavia, all'aumentare della lunghezza dei testi in input, i metodi di codifica esistenti come CLIP incontrano limitazioni, e allineare le immagini generate con testi lunghi diventa una sfida. Per affrontare questi problemi, proponiamo LongAlign, che include un metodo di codifica a livello di segmento per elaborare testi lunghi e un metodo di ottimizzazione delle preferenze decomposto per un efficace addestramento allineamento. Per la codifica a livello di segmento, i testi lunghi vengono divisi in segmenti multipli e elaborati separatamente. Questo metodo supera i limiti di lunghezza massima dell'input dei modelli di codifica preaddestrati. Per l'ottimizzazione delle preferenze, forniamo modelli di preferenza basati su CLIP decomposti per perfezionare i modelli di diffusione. In particolare, per utilizzare i modelli di preferenza basati su CLIP per l'allineamento T2I, approfondiamo i loro meccanismi di punteggio e scopriamo che i punteggi di preferenza possono essere decomposti in due componenti: una parte rilevante per il testo che misura l'allineamento T2I e una parte non rilevante per il testo che valuta altri aspetti visivi della preferenza umana. Inoltre, scopriamo che la parte non rilevante per il testo contribuisce a un comune problema di sovradattamento durante il perfezionamento. Per affrontare questo problema, proponiamo una strategia di ripesatura che assegna pesi diversi a queste due componenti, riducendo così il sovradattamento e migliorando l'allineamento. Dopo aver perfezionato 512 volte 512 Stable Diffusion (SD) v1.5 per circa 20 ore utilizzando il nostro metodo, il SD perfezionato supera modelli di base più solidi nell'allineamento T2I, come PixArt-alpha e Kandinsky v2.2. Il codice è disponibile su https://github.com/luping-liu/LongAlign.
English
The rapid advancement of text-to-image (T2I) diffusion models has enabled them to generate unprecedented results from given texts. However, as text inputs become longer, existing encoding methods like CLIP face limitations, and aligning the generated images with long texts becomes challenging. To tackle these issues, we propose LongAlign, which includes a segment-level encoding method for processing long texts and a decomposed preference optimization method for effective alignment training. For segment-level encoding, long texts are divided into multiple segments and processed separately. This method overcomes the maximum input length limits of pretrained encoding models. For preference optimization, we provide decomposed CLIP-based preference models to fine-tune diffusion models. Specifically, to utilize CLIP-based preference models for T2I alignment, we delve into their scoring mechanisms and find that the preference scores can be decomposed into two components: a text-relevant part that measures T2I alignment and a text-irrelevant part that assesses other visual aspects of human preference. Additionally, we find that the text-irrelevant part contributes to a common overfitting problem during fine-tuning. To address this, we propose a reweighting strategy that assigns different weights to these two components, thereby reducing overfitting and enhancing alignment. After fine-tuning 512 times 512 Stable Diffusion (SD) v1.5 for about 20 hours using our method, the fine-tuned SD outperforms stronger foundation models in T2I alignment, such as PixArt-alpha and Kandinsky v2.2. The code is available at https://github.com/luping-liu/LongAlign.

Summary

AI-Generated Summary

PDF152November 16, 2024