ChatPaper.aiChatPaper

Adaptación de Ultra-Resolución con Facilidad

Ultra-Resolution Adaptation with Ease

March 20, 2025
Autores: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Resumen

Los modelos de difusión de texto a imagen han logrado avances notables en los últimos años. Sin embargo, entrenar modelos para la generación de imágenes de alta resolución sigue siendo un desafío, especialmente cuando los datos de entrenamiento y los recursos computacionales son limitados. En este artículo, exploramos este problema práctico desde dos perspectivas clave: eficiencia en datos y eficiencia en parámetros, y proponemos un conjunto de directrices fundamentales para la adaptación a ultra resolución, denominado URAE. En cuanto a la eficiencia en datos, demostramos teórica y empíricamente que los datos sintéticos generados por algunos modelos "maestros" pueden promover significativamente la convergencia del entrenamiento. Para la eficiencia en parámetros, encontramos que ajustar componentes menores de las matrices de pesos supera a los adaptadores de bajo rango ampliamente utilizados cuando no hay datos sintéticos disponibles, ofreciendo ganancias sustanciales en el rendimiento mientras se mantiene la eficiencia. Además, para modelos que aprovechan la destilación de guía, como FLUX, demostramos que desactivar la guía libre de clasificador, es decir, establecer la escala de guía en 1 durante la adaptación, es crucial para un rendimiento satisfactorio. Experimentos extensos validan que URAE logra un rendimiento comparable en generación 2K a modelos de última generación de código cerrado como FLUX1.1 [Pro] Ultra con solo 3K muestras y 2K iteraciones, estableciendo nuevos puntos de referencia para la generación en resolución 4K. Los códigos están disponibles {aquí}: https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025