T-LoRA: Aanpassing van een enkelvoudig beelddiffusiemodel zonder overfitting
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
July 8, 2025
Auteurs: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Samenvatting
Hoewel fine-tuning van diffusiemodellen een krachtige aanpak biedt om vooraf getrainde modellen aan te passen voor het genereren van specifieke objecten, leidt het vaak tot overfitting wanneer trainingsgegevens beperkt zijn, wat zowel de generalisatiecapaciteit als de outputdiversiteit aantast. Dit artikel richt zich op de uitdagende maar meest impactvolle taak van het aanpassen van een diffusiemodel met slechts één conceptafbeelding, aangezien aanpassing met één afbeelding het grootste praktische potentieel heeft. We introduceren T-LoRA, een Timestep-Dependent Low-Rank Adaptation-framework dat specifiek is ontworpen voor personalisatie van diffusiemodellen. In ons werk tonen we aan dat hogere diffusietimestappen gevoeliger zijn voor overfitting dan lagere, wat een timestapgevoelige fine-tuningstrategie vereist. T-LoRA omvat twee belangrijke innovaties: (1) een dynamische fine-tuningstrategie die rank-beperkte updates aanpast op basis van diffusietimestappen, en (2) een gewichtsparametrisatietechniek die onafhankelijkheid tussen adaptercomponenten garandeert door orthogonale initialisatie. Uitgebreide experimenten tonen aan dat T-LoRA en zijn individuele componenten standaard LoRA en andere personalisatietechnieken voor diffusiemodellen overtreffen. Ze bereiken een superieure balans tussen concepttrouw en tekstuitlijning, wat het potentieel van T-LoRA benadrukt in scenario's met beperkte gegevens en middelen. Code is beschikbaar op https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing
pre-trained models to generate specific objects, it frequently suffers from
overfitting when training samples are limited, compromising both generalization
capability and output diversity. This paper tackles the challenging yet most
impactful task of adapting a diffusion model using just a single concept image,
as single-image customization holds the greatest practical potential. We
introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework
specifically designed for diffusion model personalization. In our work we show
that higher diffusion timesteps are more prone to overfitting than lower ones,
necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates
two key innovations: (1) a dynamic fine-tuning strategy that adjusts
rank-constrained updates based on diffusion timesteps, and (2) a weight
parametrization technique that ensures independence between adapter components
through orthogonal initialization. Extensive experiments show that T-LoRA and
its individual components outperform standard LoRA and other diffusion model
personalization techniques. They achieve a superior balance between concept
fidelity and text alignment, highlighting the potential of T-LoRA in
data-limited and resource-constrained scenarios. Code is available at
https://github.com/ControlGenAI/T-LoRA.