Adattamento Ultra-Risoluzione con Semplicità
Ultra-Resolution Adaptation with Ease
March 20, 2025
Autori: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Abstract
I modelli di diffusione text-to-image hanno compiuto progressi notevoli negli ultimi anni. Tuttavia, l'addestramento di modelli per la generazione di immagini ad alta risoluzione rimane una sfida, specialmente quando i dati di addestramento e le risorse computazionali sono limitati. In questo articolo, esploriamo questo problema pratico da due prospettive chiave: efficienza dei dati e dei parametri, e proponiamo una serie di linee guida fondamentali per l'adattamento a ultra-risoluzione, denominato URAE. Per quanto riguarda l'efficienza dei dati, dimostriamo teoricamente ed empiricamente che i dati sintetici generati da alcuni modelli insegnanti possono favorire significativamente la convergenza dell'addestramento. Per l'efficienza dei parametri, scopriamo che la regolazione di componenti minori delle matrici dei pesi supera gli adattatori a basso rango ampiamente utilizzati quando i dati sintetici non sono disponibili, offrendo sostanziali miglioramenti delle prestazioni mantenendo l'efficienza. Inoltre, per i modelli che sfruttano la distillazione guidata, come FLUX, dimostriamo che disabilitare la guida senza classificatore, ovvero impostare la scala di guida a 1 durante l'adattamento, è cruciale per ottenere prestazioni soddisfacenti. Esperimenti estensivi convalidano che URAE raggiunge prestazioni di generazione 2K comparabili a modelli closed-source all'avanguardia come FLUX1.1 [Pro] Ultra con soli 3K campioni e 2K iterazioni, stabilendo nuovi benchmark per la generazione a risoluzione 4K. I codici sono disponibili {qui} https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.