ChatPaper.aiChatPaper

Adaptation Ultra-Résolution en Toute Simplicité

Ultra-Resolution Adaptation with Ease

March 20, 2025
Auteurs: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Résumé

Les modèles de diffusion texte-image ont réalisé des progrès remarquables ces dernières années. Cependant, l'entraînement de modèles pour la génération d'images haute résolution reste un défi, en particulier lorsque les données d'entraînement et les ressources computationnelles sont limitées. Dans cet article, nous explorons ce problème pratique sous deux perspectives clés : l'efficacité des données et des paramètres, et proposons un ensemble de directives clés pour l'adaptation à ultra-résolution, appelé URAE. Pour l'efficacité des données, nous démontrons théoriquement et empiriquement que les données synthétiques générées par certains modèles enseignants peuvent significativement accélérer la convergence de l'entraînement. Pour l'efficacité des paramètres, nous constatons que l'ajustement de composants mineurs des matrices de poids surpasse les adaptateurs à faible rang largement utilisés lorsque les données synthétiques ne sont pas disponibles, offrant des gains de performance substantiels tout en maintenant l'efficacité. De plus, pour les modèles exploitant la distillation guidée, comme FLUX, nous montrons que la désactivation du guidage sans classificateur, c'est-à-dire la fixation de l'échelle de guidage à 1 pendant l'adaptation, est cruciale pour une performance satisfaisante. Des expériences approfondies valident qu'URAE atteint des performances comparables en génération 2K aux modèles propriétaires de pointe comme FLUX1.1 [Pro] Ultra avec seulement 3 000 échantillons et 2 000 itérations, tout en établissant de nouveaux repères pour la génération en résolution 4K. Les codes sont disponibles {ici} : https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025