T-LoRA: Personalización de Modelos de Difusión de Imágenes Únicas sin Sobreajuste
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
July 8, 2025
Autores: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Resumen
Si bien el ajuste fino de modelos de difusión ofrece un enfoque poderoso para personalizar modelos preentrenados y generar objetos específicos, frecuentemente sufre de sobreajuste cuando las muestras de entrenamiento son limitadas, lo que compromete tanto la capacidad de generalización como la diversidad de las salidas. Este artículo aborda la tarea desafiante pero de mayor impacto de adaptar un modelo de difusión utilizando solo una imagen de concepto, ya que la personalización con una sola imagen tiene el mayor potencial práctico. Presentamos T-LoRA, un marco de Adaptación de Bajo Rango Dependiente del Paso Temporal, diseñado específicamente para la personalización de modelos de difusión. En nuestro trabajo demostramos que los pasos temporales más altos en la difusión son más propensos al sobreajuste que los más bajos, lo que requiere una estrategia de ajuste fino sensible al paso temporal. T-LoRA incorpora dos innovaciones clave: (1) una estrategia de ajuste fino dinámico que ajusta las actualizaciones restringidas por rango según los pasos temporales de difusión, y (2) una técnica de parametrización de pesos que garantiza la independencia entre los componentes del adaptador mediante inicialización ortogonal. Experimentos extensos muestran que T-LoRA y sus componentes individuales superan a LoRA estándar y otras técnicas de personalización de modelos de difusión. Logran un equilibrio superior entre la fidelidad al concepto y la alineación con el texto, destacando el potencial de T-LoRA en escenarios con datos limitados y recursos restringidos. El código está disponible en https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing
pre-trained models to generate specific objects, it frequently suffers from
overfitting when training samples are limited, compromising both generalization
capability and output diversity. This paper tackles the challenging yet most
impactful task of adapting a diffusion model using just a single concept image,
as single-image customization holds the greatest practical potential. We
introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework
specifically designed for diffusion model personalization. In our work we show
that higher diffusion timesteps are more prone to overfitting than lower ones,
necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates
two key innovations: (1) a dynamic fine-tuning strategy that adjusts
rank-constrained updates based on diffusion timesteps, and (2) a weight
parametrization technique that ensures independence between adapter components
through orthogonal initialization. Extensive experiments show that T-LoRA and
its individual components outperform standard LoRA and other diffusion model
personalization techniques. They achieve a superior balance between concept
fidelity and text alignment, highlighting the potential of T-LoRA in
data-limited and resource-constrained scenarios. Code is available at
https://github.com/ControlGenAI/T-LoRA.