ChatPaper.aiChatPaper

Adaptação de Ultra-Resolução com Facilidade

Ultra-Resolution Adaptation with Ease

March 20, 2025
Autores: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Resumo

Modelos de difusão texto-imagem têm alcançado progressos notáveis nos últimos anos. No entanto, treinar modelos para geração de imagens de alta resolução continua sendo um desafio, especialmente quando os dados de treinamento e os recursos computacionais são limitados. Neste artigo, exploramos esse problema prático a partir de duas perspectivas principais: eficiência de dados e de parâmetros, e propomos um conjunto de diretrizes-chave para adaptação de ultra-resolução, denominado URAE. Para eficiência de dados, demonstramos teórica e empiricamente que dados sintéticos gerados por alguns modelos professores podem promover significativamente a convergência do treinamento. Para eficiência de parâmetros, descobrimos que ajustar componentes menores das matrizes de peso supera adaptadores de baixa classificação amplamente utilizados quando dados sintéticos não estão disponíveis, oferecendo ganhos substanciais de desempenho enquanto mantém a eficiência. Além disso, para modelos que utilizam destilação de orientação, como o FLUX, mostramos que desabilitar a orientação livre de classificador, ou seja, definir a escala de orientação para 1 durante a adaptação, é crucial para um desempenho satisfatório. Experimentos extensivos validam que o URAE alcança desempenho comparável na geração de 2K aos modelos de última geração de código fechado, como o FLUX1.1 [Pro] Ultra, com apenas 3K amostras e 2K iterações, enquanto estabelece novos benchmarks para geração de resolução 4K. Os códigos estão disponíveis {aqui}.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025