ChatPaper.aiChatPaper

T-LoRA: Anpassung von Einzelbild-Diffusionsmodellen ohne Überanpassung

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

July 8, 2025
papers.authors: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
cs.AI

papers.abstract

Während das Feinabstimmen von Diffusionsmodellen einen leistungsstarken Ansatz bietet, um vortrainierte Modelle zur Generierung spezifischer Objekte anzupassen, leidet es häufig unter Überanpassung, wenn die Trainingsdaten begrenzt sind, was sowohl die Generalisierungsfähigkeit als auch die Ausgabevielfalt beeinträchtigt. Diese Arbeit widmet sich der herausfordernden, aber äußerst einflussreichen Aufgabe, ein Diffusionsmodell mit nur einem einzigen Konzeptbild anzupassen, da die Anpassung mit einem einzelnen Bild das größte praktische Potenzial birgt. Wir stellen T-LoRA vor, ein zeitstufenabhängiges Low-Rank-Adaptationsframework, das speziell für die Personalisierung von Diffusionsmodellen entwickelt wurde. In unserer Arbeit zeigen wir, dass höhere Diffusionszeitstufen anfälliger für Überanpassung sind als niedrigere, was eine zeitstufenempfindliche Feinabstimmungsstrategie erfordert. T-LoRA integriert zwei Schlüsselinnovationen: (1) eine dynamische Feinabstimmungsstrategie, die rangbeschränkte Aktualisierungen basierend auf den Diffusionszeitstufen anpasst, und (2) eine Gewichtsparametrisierungstechnik, die die Unabhängigkeit zwischen Adapterkomponenten durch orthogonale Initialisierung sicherstellt. Umfangreiche Experimente zeigen, dass T-LoRA und seine einzelnen Komponenten Standard-LoRA und andere Personalisierungstechniken für Diffusionsmodelle übertreffen. Sie erreichen ein überlegenes Gleichgewicht zwischen Konzepttreue und Textausrichtung und unterstreichen das Potenzial von T-LoRA in daten- und ressourcenbeschränkten Szenarien. Der Code ist verfügbar unter https://github.com/ControlGenAI/T-LoRA.
English
While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.
PDF871July 11, 2025