Adaptation Ultra-Résolution en Toute Simplicité
Ultra-Resolution Adaptation with Ease
March 20, 2025
Auteurs: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Résumé
Les modèles de diffusion texte-image ont réalisé des progrès remarquables ces dernières années. Cependant, l'entraînement de modèles pour la génération d'images haute résolution reste un défi, en particulier lorsque les données d'entraînement et les ressources computationnelles sont limitées. Dans cet article, nous explorons ce problème pratique sous deux perspectives clés : l'efficacité des données et des paramètres, et proposons un ensemble de directives clés pour l'adaptation à ultra-résolution, appelé URAE. Pour l'efficacité des données, nous démontrons théoriquement et empiriquement que les données synthétiques générées par certains modèles enseignants peuvent significativement accélérer la convergence de l'entraînement. Pour l'efficacité des paramètres, nous constatons que l'ajustement de composants mineurs des matrices de poids surpasse les adaptateurs à faible rang largement utilisés lorsque les données synthétiques ne sont pas disponibles, offrant des gains de performance substantiels tout en maintenant l'efficacité. De plus, pour les modèles exploitant la distillation guidée, comme FLUX, nous montrons que la désactivation du guidage sans classificateur, c'est-à-dire la fixation de l'échelle de guidage à 1 pendant l'adaptation, est cruciale pour une performance satisfaisante. Des expériences approfondies valident qu'URAE atteint des performances comparables en génération 2K aux modèles propriétaires de pointe comme FLUX1.1 [Pro] Ultra avec seulement 3 000 échantillons et 2 000 itérations, tout en établissant de nouveaux repères pour la génération en résolution 4K. Les codes sont disponibles {ici} : https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary