Adaptación de Ultra-Resolución con Facilidad
Ultra-Resolution Adaptation with Ease
March 20, 2025
Autores: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión de texto a imagen han logrado avances notables en los últimos años. Sin embargo, entrenar modelos para la generación de imágenes de alta resolución sigue siendo un desafío, especialmente cuando los datos de entrenamiento y los recursos computacionales son limitados. En este artículo, exploramos este problema práctico desde dos perspectivas clave: eficiencia en datos y eficiencia en parámetros, y proponemos un conjunto de directrices fundamentales para la adaptación a ultra resolución, denominado URAE. En cuanto a la eficiencia en datos, demostramos teórica y empíricamente que los datos sintéticos generados por algunos modelos "maestros" pueden promover significativamente la convergencia del entrenamiento. Para la eficiencia en parámetros, encontramos que ajustar componentes menores de las matrices de pesos supera a los adaptadores de bajo rango ampliamente utilizados cuando no hay datos sintéticos disponibles, ofreciendo ganancias sustanciales en el rendimiento mientras se mantiene la eficiencia. Además, para modelos que aprovechan la destilación de guía, como FLUX, demostramos que desactivar la guía libre de clasificador, es decir, establecer la escala de guía en 1 durante la adaptación, es crucial para un rendimiento satisfactorio. Experimentos extensos validan que URAE logra un rendimiento comparable en generación 2K a modelos de última generación de código cerrado como FLUX1.1 [Pro] Ultra con solo 3K muestras y 2K iteraciones, estableciendo nuevos puntos de referencia para la generación en resolución 4K. Los códigos están disponibles {aquí}: https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary