T-LoRA: Настройка модели диффузии на одном изображении без переобучения

Аннотация

Хотя тонкая настройка диффузионных моделей предлагает мощный подход для адаптации предварительно обученных моделей к генерации конкретных объектов, она часто страдает от переобучения при ограниченном количестве обучающих данных, что ухудшает как способность к обобщению, так и разнообразие выходных данных. В данной статье рассматривается сложная, но наиболее значимая задача адаптации диффузионной модели с использованием всего одного изображения концепта, поскольку персонализация на основе одного изображения обладает наибольшим практическим потенциалом. Мы представляем T-LoRA, фреймворк для низкоранговой адаптации, зависящей от временного шага, специально разработанный для персонализации диффузионных моделей. В нашей работе мы показываем, что более высокие временные шаги диффузии более склонны к переобучению, чем низкие, что требует стратегии тонкой настройки, чувствительной к временному шагу. T-LoRA включает два ключевых нововведения: (1) динамическую стратегию тонкой настройки, которая регулирует обновления с ограничением ранга в зависимости от временного шага диффузии, и (2) технику параметризации весов, которая обеспечивает независимость компонентов адаптера через ортогональную инициализацию. Многочисленные эксперименты показывают, что T-LoRA и её отдельные компоненты превосходят стандартный LoRA и другие методы персонализации диффузионных моделей. Они достигают превосходного баланса между точностью воспроизведения концепта и соответствием тексту, подчеркивая потенциал T-LoRA в сценариях с ограниченными данными и ресурсами. Код доступен по адресу https://github.com/ControlGenAI/T-LoRA.

English

While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.

T-LoRA: Настройка модели диффузии на одном изображении без переобучения

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Аннотация

Support