T-LoRA: Aanpassing van een enkelvoudig beelddiffusiemodel zonder overfitting

Samenvatting

Hoewel fine-tuning van diffusiemodellen een krachtige aanpak biedt om vooraf getrainde modellen aan te passen voor het genereren van specifieke objecten, leidt het vaak tot overfitting wanneer trainingsgegevens beperkt zijn, wat zowel de generalisatiecapaciteit als de outputdiversiteit aantast. Dit artikel richt zich op de uitdagende maar meest impactvolle taak van het aanpassen van een diffusiemodel met slechts één conceptafbeelding, aangezien aanpassing met één afbeelding het grootste praktische potentieel heeft. We introduceren T-LoRA, een Timestep-Dependent Low-Rank Adaptation-framework dat specifiek is ontworpen voor personalisatie van diffusiemodellen. In ons werk tonen we aan dat hogere diffusietimestappen gevoeliger zijn voor overfitting dan lagere, wat een timestapgevoelige fine-tuningstrategie vereist. T-LoRA omvat twee belangrijke innovaties: (1) een dynamische fine-tuningstrategie die rank-beperkte updates aanpast op basis van diffusietimestappen, en (2) een gewichtsparametrisatietechniek die onafhankelijkheid tussen adaptercomponenten garandeert door orthogonale initialisatie. Uitgebreide experimenten tonen aan dat T-LoRA en zijn individuele componenten standaard LoRA en andere personalisatietechnieken voor diffusiemodellen overtreffen. Ze bereiken een superieure balans tussen concepttrouw en tekstuitlijning, wat het potentieel van T-LoRA benadrukt in scenario's met beperkte gegevens en middelen. Code is beschikbaar op https://github.com/ControlGenAI/T-LoRA.

English

While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.

T-LoRA: Aanpassing van een enkelvoudig beelddiffusiemodel zonder overfitting

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Samenvatting

Support