T-LoRA: Настройка модели диффузии на одном изображении без переобучения
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
July 8, 2025
Авторы: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Аннотация
Хотя тонкая настройка диффузионных моделей предлагает мощный подход для адаптации предварительно обученных моделей к генерации конкретных объектов, она часто страдает от переобучения при ограниченном количестве обучающих данных, что ухудшает как способность к обобщению, так и разнообразие выходных данных. В данной статье рассматривается сложная, но наиболее значимая задача адаптации диффузионной модели с использованием всего одного изображения концепта, поскольку персонализация на основе одного изображения обладает наибольшим практическим потенциалом. Мы представляем T-LoRA, фреймворк для низкоранговой адаптации, зависящей от временного шага, специально разработанный для персонализации диффузионных моделей. В нашей работе мы показываем, что более высокие временные шаги диффузии более склонны к переобучению, чем низкие, что требует стратегии тонкой настройки, чувствительной к временному шагу. T-LoRA включает два ключевых нововведения: (1) динамическую стратегию тонкой настройки, которая регулирует обновления с ограничением ранга в зависимости от временного шага диффузии, и (2) технику параметризации весов, которая обеспечивает независимость компонентов адаптера через ортогональную инициализацию. Многочисленные эксперименты показывают, что T-LoRA и её отдельные компоненты превосходят стандартный LoRA и другие методы персонализации диффузионных моделей. Они достигают превосходного баланса между точностью воспроизведения концепта и соответствием тексту, подчеркивая потенциал T-LoRA в сценариях с ограниченными данными и ресурсами. Код доступен по адресу https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing
pre-trained models to generate specific objects, it frequently suffers from
overfitting when training samples are limited, compromising both generalization
capability and output diversity. This paper tackles the challenging yet most
impactful task of adapting a diffusion model using just a single concept image,
as single-image customization holds the greatest practical potential. We
introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework
specifically designed for diffusion model personalization. In our work we show
that higher diffusion timesteps are more prone to overfitting than lower ones,
necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates
two key innovations: (1) a dynamic fine-tuning strategy that adjusts
rank-constrained updates based on diffusion timesteps, and (2) a weight
parametrization technique that ensures independence between adapter components
through orthogonal initialization. Extensive experiments show that T-LoRA and
its individual components outperform standard LoRA and other diffusion model
personalization techniques. They achieve a superior balance between concept
fidelity and text alignment, highlighting the potential of T-LoRA in
data-limited and resource-constrained scenarios. Code is available at
https://github.com/ControlGenAI/T-LoRA.