ChatPaper.aiChatPaper

Leiten eines Diffusion Transformers mit seinen internen Dynamiken

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

December 30, 2025
papers.authors: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI

papers.abstract

Das Diffusionsmodell verfügt über eine hohe Fähigkeit, die gesamte (bedingte) Datenverteilung zu erfassen. Allerdings wird das Modell aufgrund unzureichenden Trainings und ungenügender Daten zum Erlernen der Abdeckung von Niedrigwahrscheinlichkeitsbereichen bestraft, wenn es keine hochwertigen Bilder für diese Bereiche generieren kann. Um eine bessere Generierungsqualität zu erreichen, können Führungsstrategien wie Classifier Free Guidance (CFG) die Samples während der Abtastphase in Hochwahrscheinlichkeitsbereiche lenken. Die Standard-CFG führt jedoch oft zu übervereinfachten oder verzerrten Samples. Andererseits ist der alternative Ansatz der Führung von Diffusionsmodellen mit ihrer schlechten Version durch aufwendig gestaltete Degradationsstrategien, zusätzliches Training und weitere Abtastschritte limitiert. In diesem Artikel schlagen wir eine einfache, aber effektive Strategie namens Internal Guidance (IG) vor, die während des Trainingsprozesses eine zusätzliche Überwachung auf Zwischenschichten einführt und während des Abtastprozesses die Ausgaben von Zwischen- und Tiefenschichten extrapoliert, um generative Ergebnisse zu erzielen. Diese einfache Strategie führt zu signifikanten Verbesserungen sowohl der Trainingseffizienz als auch der Generierungsqualität auf verschiedenen Baseline-Modellen. Auf ImageNet 256x256 erreicht SiT-XL/2+IG FID=5,31 und FID=1,75 nach 80 bzw. 800 Epochen. Noch beeindruckender ist, dass LightningDiT-XL/1+IG einen FID=1,34 erreicht, was einen großen Vorsprung gegenüber allen anderen Methoden darstellt. In Kombination mit CFG erzielt LightningDiT-XL/1+IG den aktuellen state-of-the-art FID-Wert von 1,19.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
PDF41January 2, 2026