Adaptação de Ultra-Resolução com Facilidade
Ultra-Resolution Adaptation with Ease
March 20, 2025
Autores: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Resumo
Modelos de difusão texto-imagem têm alcançado progressos notáveis nos últimos anos. No entanto, treinar modelos para geração de imagens de alta resolução continua sendo um desafio, especialmente quando os dados de treinamento e os recursos computacionais são limitados. Neste artigo, exploramos esse problema prático a partir de duas perspectivas principais: eficiência de dados e de parâmetros, e propomos um conjunto de diretrizes-chave para adaptação de ultra-resolução, denominado URAE. Para eficiência de dados, demonstramos teórica e empiricamente que dados sintéticos gerados por alguns modelos professores podem promover significativamente a convergência do treinamento. Para eficiência de parâmetros, descobrimos que ajustar componentes menores das matrizes de peso supera adaptadores de baixa classificação amplamente utilizados quando dados sintéticos não estão disponíveis, oferecendo ganhos substanciais de desempenho enquanto mantém a eficiência. Além disso, para modelos que utilizam destilação de orientação, como o FLUX, mostramos que desabilitar a orientação livre de classificador, ou seja, definir a escala de orientação para 1 durante a adaptação, é crucial para um desempenho satisfatório. Experimentos extensivos validam que o URAE alcança desempenho comparável na geração de 2K aos modelos de última geração de código fechado, como o FLUX1.1 [Pro] Ultra, com apenas 3K amostras e 2K iterações, enquanto estabelece novos benchmarks para geração de resolução 4K. Os códigos estão disponíveis {aqui}.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary