ChatPaper.aiChatPaper

T-LoRA: Personalização de Modelos de Difusão de Imagem Única Sem Overfitting

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

July 8, 2025
Autores: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI

Resumo

Embora o ajuste fino de modelos de difusão ofereça uma abordagem poderosa para personalizar modelos pré-treinados na geração de objetos específicos, ele frequentemente sofre de sobreajuste quando as amostras de treinamento são limitadas, comprometendo tanto a capacidade de generalização quanto a diversidade das saídas. Este artigo aborda a tarefa desafiadora, porém de maior impacto, de adaptar um modelo de difusão utilizando apenas uma única imagem de conceito, uma vez que a personalização com uma única imagem possui o maior potencial prático. Introduzimos o T-LoRA, uma estrutura de Adaptação de Baixa Ordem Dependente do Timestep, projetada especificamente para a personalização de modelos de difusão. Em nosso trabalho, mostramos que timesteps mais altos na difusão são mais propensos ao sobreajuste do que os mais baixos, exigindo uma estratégia de ajuste fino sensível ao timestep. O T-LoRA incorpora duas inovações principais: (1) uma estratégia de ajuste fino dinâmico que ajusta as atualizações com restrição de ordem com base nos timesteps de difusão, e (2) uma técnica de parametrização de pesos que garante a independência entre os componentes do adaptador por meio de inicialização ortogonal. Experimentos extensivos mostram que o T-LoRA e seus componentes individuais superam o LoRA padrão e outras técnicas de personalização de modelos de difusão. Eles alcançam um equilíbrio superior entre fidelidade ao conceito e alinhamento textual, destacando o potencial do T-LoRA em cenários com dados limitados e recursos restritos. O código está disponível em https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.
PDF1072July 11, 2025