T-LoRA : Personnalisation de modèle de diffusion d'image unique sans surapprentissage
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
July 8, 2025
papers.authors: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
papers.abstract
Bien que le fine-tuning des modèles de diffusion offre une approche puissante pour personnaliser des modèles pré-entraînés afin de générer des objets spécifiques, il souffre fréquemment de sur-apprentissage lorsque les échantillons d'entraînement sont limités, compromettant à la fois la capacité de généralisation et la diversité des sorties. Cet article aborde la tâche difficile mais la plus impactante d'adapter un modèle de diffusion en utilisant une seule image de concept, car la personnalisation à partir d'une seule image présente le plus grand potentiel pratique. Nous introduisons T-LoRA, un cadre d'Adaptation à Faible Rang Dépendant du Pas de Temps, spécifiquement conçu pour la personnalisation des modèles de diffusion. Dans notre travail, nous montrons que les pas de temps de diffusion plus élevés sont plus sujets au sur-apprentissage que les pas de temps plus faibles, nécessitant une stratégie de fine-tuning sensible au pas de temps. T-LoRA intègre deux innovations clés : (1) une stratégie de fine-tuning dynamique qui ajuste les mises à jour contraintes par le rang en fonction des pas de temps de diffusion, et (2) une technique de paramétrisation des poids qui garantit l'indépendance entre les composants de l'adaptateur grâce à une initialisation orthogonale. Des expériences approfondies montrent que T-LoRA et ses composants individuels surpassent le LoRA standard et d'autres techniques de personnalisation des modèles de diffusion. Ils atteignent un équilibre supérieur entre la fidélité au concept et l'alignement textuel, mettant en évidence le potentiel de T-LoRA dans des scénarios limités en données et en ressources. Le code est disponible à l'adresse https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing
pre-trained models to generate specific objects, it frequently suffers from
overfitting when training samples are limited, compromising both generalization
capability and output diversity. This paper tackles the challenging yet most
impactful task of adapting a diffusion model using just a single concept image,
as single-image customization holds the greatest practical potential. We
introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework
specifically designed for diffusion model personalization. In our work we show
that higher diffusion timesteps are more prone to overfitting than lower ones,
necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates
two key innovations: (1) a dynamic fine-tuning strategy that adjusts
rank-constrained updates based on diffusion timesteps, and (2) a weight
parametrization technique that ensures independence between adapter components
through orthogonal initialization. Extensive experiments show that T-LoRA and
its individual components outperform standard LoRA and other diffusion model
personalization techniques. They achieve a superior balance between concept
fidelity and text alignment, highlighting the potential of T-LoRA in
data-limited and resource-constrained scenarios. Code is available at
https://github.com/ControlGenAI/T-LoRA.