ChatPaper.aiChatPaper

T-LoRA: Personalizzazione del Modello di Diffusione per Singola Immagine Senza Overfitting

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

July 8, 2025
Autori: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI

Abstract

Sebbene il fine-tuning dei modelli di diffusione offra un approccio potente per personalizzare modelli pre-addestrati nella generazione di oggetti specifici, spesso soffre di overfitting quando i campioni di addestramento sono limitati, compromettendo sia la capacità di generalizzazione che la diversità degli output. Questo articolo affronta il compito impegnativo ma di maggiore impatto di adattare un modello di diffusione utilizzando una sola immagine concettuale, poiché la personalizzazione basata su singola immagine detiene il maggiore potenziale pratico. Introduciamo T-LoRA, un framework di Adattamento a Basso Rango Dipendente dal Timestep, specificamente progettato per la personalizzazione dei modelli di diffusione. Nel nostro lavoro dimostriamo che i timestep più alti della diffusione sono più soggetti a overfitting rispetto a quelli più bassi, rendendo necessaria una strategia di fine-tuning sensibile al timestep. T-LoRA incorpora due innovazioni chiave: (1) una strategia di fine-tuning dinamica che regola gli aggiornamenti vincolati al rango in base ai timestep di diffusione, e (2) una tecnica di parametrizzazione dei pesi che garantisce l'indipendenza tra i componenti dell'adapter attraverso l'inizializzazione ortogonale. Esperimenti estensivi dimostrano che T-LoRA e i suoi singoli componenti superano il LoRA standard e altre tecniche di personalizzazione dei modelli di diffusione. Essi raggiungono un equilibrio superiore tra fedeltà al concetto e allineamento al testo, evidenziando il potenziale di T-LoRA in scenari con dati limitati e risorse vincolate. Il codice è disponibile all'indirizzo https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.
PDF1132July 11, 2025