Amélioration de l'alignement de longs textes pour les modèles de diffusion texte-image
Improving Long-Text Alignment for Text-to-Image Diffusion Models
October 15, 2024
Auteurs: Luping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu
cs.AI
Résumé
Les progrès rapides des modèles de diffusion texte-image (T2I) ont permis de générer des résultats sans précédent à partir de textes donnés. Cependant, à mesure que les entrées textuelles deviennent plus longues, les méthodes d'encodage existantes comme CLIP rencontrent des limitations, et l'alignement des images générées avec de longs textes devient difficile. Pour résoudre ces problèmes, nous proposons LongAlign, qui comprend une méthode d'encodage au niveau des segments pour le traitement de longs textes et une méthode d'optimisation de préférence décomposée pour un entraînement d'alignement efficace. Pour l'encodage au niveau des segments, les longs textes sont divisés en plusieurs segments et traités séparément. Cette méthode surmonte les limites de longueur d'entrée maximale des modèles d'encodage pré-entraînés. Pour l'optimisation de préférence, nous fournissons des modèles de préférence décomposés basés sur CLIP pour affiner les modèles de diffusion. Plus précisément, pour utiliser les modèles de préférence basés sur CLIP pour l'alignement T2I, nous explorons leurs mécanismes de notation et constatons que les scores de préférence peuvent être décomposés en deux composantes : une partie pertinente au texte qui mesure l'alignement T2I et une partie non pertinente au texte qui évalue d'autres aspects visuels de la préférence humaine. De plus, nous constatons que la partie non pertinente au texte contribue à un problème courant de surajustement lors de l'affinage. Pour y remédier, nous proposons une stratégie de réaffectation qui attribue des poids différents à ces deux composantes, réduisant ainsi le surajustement et améliorant l'alignement. Après avoir affiné 512 fois 512 Stable Diffusion (SD) v1.5 pendant environ 20 heures en utilisant notre méthode, le SD affiné surpasse des modèles de base plus solides dans l'alignement T2I, tels que PixArt-alpha et Kandinsky v2.2. Le code est disponible sur https://github.com/luping-liu/LongAlign.
English
The rapid advancement of text-to-image (T2I) diffusion models has enabled
them to generate unprecedented results from given texts. However, as text
inputs become longer, existing encoding methods like CLIP face limitations, and
aligning the generated images with long texts becomes challenging. To tackle
these issues, we propose LongAlign, which includes a segment-level encoding
method for processing long texts and a decomposed preference optimization
method for effective alignment training. For segment-level encoding, long texts
are divided into multiple segments and processed separately. This method
overcomes the maximum input length limits of pretrained encoding models. For
preference optimization, we provide decomposed CLIP-based preference models to
fine-tune diffusion models. Specifically, to utilize CLIP-based preference
models for T2I alignment, we delve into their scoring mechanisms and find that
the preference scores can be decomposed into two components: a text-relevant
part that measures T2I alignment and a text-irrelevant part that assesses other
visual aspects of human preference. Additionally, we find that the
text-irrelevant part contributes to a common overfitting problem during
fine-tuning. To address this, we propose a reweighting strategy that assigns
different weights to these two components, thereby reducing overfitting and
enhancing alignment. After fine-tuning 512 times 512 Stable Diffusion (SD)
v1.5 for about 20 hours using our method, the fine-tuned SD outperforms
stronger foundation models in T2I alignment, such as PixArt-alpha and
Kandinsky v2.2. The code is available at
https://github.com/luping-liu/LongAlign.Summary
AI-Generated Summary