ChatPaper.aiChatPaper

Ultra-Resolutie Aanpassing met Gemak

Ultra-Resolution Adaptation with Ease

March 20, 2025
Auteurs: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Samenvatting

Text-to-image diffusiemodellen hebben de afgelopen jaren opmerkelijke vooruitgang geboekt. Het trainen van modellen voor het genereren van hoogwaardige afbeeldingen blijft echter een uitdaging, vooral wanneer trainingsdata en rekenbronnen beperkt zijn. In dit artikel onderzoeken we dit praktische probleem vanuit twee belangrijke perspectieven: data- en parameter-efficiëntie, en stellen we een reeks richtlijnen voor ultra-resolutie-aanpassing voor, genaamd URAE. Voor data-efficiëntie tonen we theoretisch en empirisch aan dat synthetische data gegenereerd door sommige leraarmodellen de trainingsconvergentie aanzienlijk kunnen bevorderen. Voor parameter-efficiëntie ontdekken we dat het afstemmen van kleine componenten van de gewichtsmatrices beter presteert dan veelgebruikte low-rank adapters wanneer synthetische data niet beschikbaar zijn, wat aanzienlijke prestatieverbeteringen biedt terwijl de efficiëntie behouden blijft. Daarnaast laten we voor modellen die gebruikmaken van begeleidingsdistillatie, zoals FLUX, zien dat het uitschakelen van classifier-free guidance, d.w.z. het instellen van de begeleidingsschaal op 1 tijdens de aanpassing, cruciaal is voor bevredigende prestaties. Uitgebreide experimenten valideren dat URAE vergelijkbare 2K-generatieprestaties bereikt met state-of-the-art closed-source modellen zoals FLUX1.1 [Pro] Ultra met slechts 3K samples en 2K iteraties, terwijl het nieuwe benchmarks stelt voor 4K-resolutiegeneratie. Codes zijn beschikbaar op https://github.com/Huage001/URAE{hier}.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025