ChatPaper.aiChatPaper

T-LoRA: Aanpassing van een enkelvoudig beelddiffusiemodel zonder overfitting

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

July 8, 2025
Auteurs: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI

Samenvatting

Hoewel fine-tuning van diffusiemodellen een krachtige aanpak biedt om vooraf getrainde modellen aan te passen voor het genereren van specifieke objecten, leidt het vaak tot overfitting wanneer trainingsgegevens beperkt zijn, wat zowel de generalisatiecapaciteit als de outputdiversiteit aantast. Dit artikel richt zich op de uitdagende maar meest impactvolle taak van het aanpassen van een diffusiemodel met slechts één conceptafbeelding, aangezien aanpassing met één afbeelding het grootste praktische potentieel heeft. We introduceren T-LoRA, een Timestep-Dependent Low-Rank Adaptation-framework dat specifiek is ontworpen voor personalisatie van diffusiemodellen. In ons werk tonen we aan dat hogere diffusietimestappen gevoeliger zijn voor overfitting dan lagere, wat een timestapgevoelige fine-tuningstrategie vereist. T-LoRA omvat twee belangrijke innovaties: (1) een dynamische fine-tuningstrategie die rank-beperkte updates aanpast op basis van diffusietimestappen, en (2) een gewichtsparametrisatietechniek die onafhankelijkheid tussen adaptercomponenten garandeert door orthogonale initialisatie. Uitgebreide experimenten tonen aan dat T-LoRA en zijn individuele componenten standaard LoRA en andere personalisatietechnieken voor diffusiemodellen overtreffen. Ze bereiken een superieure balans tussen concepttrouw en tekstuitlijning, wat het potentieel van T-LoRA benadrukt in scenario's met beperkte gegevens en middelen. Code is beschikbaar op https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.
PDF1182July 11, 2025