Adattamento Ultra-Risoluzione con Semplicità

Abstract

I modelli di diffusione text-to-image hanno compiuto progressi notevoli negli ultimi anni. Tuttavia, l'addestramento di modelli per la generazione di immagini ad alta risoluzione rimane una sfida, specialmente quando i dati di addestramento e le risorse computazionali sono limitati. In questo articolo, esploriamo questo problema pratico da due prospettive chiave: efficienza dei dati e dei parametri, e proponiamo una serie di linee guida fondamentali per l'adattamento a ultra-risoluzione, denominato URAE. Per quanto riguarda l'efficienza dei dati, dimostriamo teoricamente ed empiricamente che i dati sintetici generati da alcuni modelli insegnanti possono favorire significativamente la convergenza dell'addestramento. Per l'efficienza dei parametri, scopriamo che la regolazione di componenti minori delle matrici dei pesi supera gli adattatori a basso rango ampiamente utilizzati quando i dati sintetici non sono disponibili, offrendo sostanziali miglioramenti delle prestazioni mantenendo l'efficienza. Inoltre, per i modelli che sfruttano la distillazione guidata, come FLUX, dimostriamo che disabilitare la guida senza classificatore, ovvero impostare la scala di guida a 1 durante l'adattamento, è cruciale per ottenere prestazioni soddisfacenti. Esperimenti estensivi convalidano che URAE raggiunge prestazioni di generazione 2K comparabili a modelli closed-source all'avanguardia come FLUX1.1 [Pro] Ultra con soli 3K campioni e 2K iterazioni, stabilendo nuovi benchmark per la generazione a risoluzione 4K. I codici sono disponibili {qui} https://github.com/Huage001/URAE.

English

Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Adattamento Ultra-Risoluzione con Semplicità

Ultra-Resolution Adaptation with Ease

Abstract

Support