ChatPaper.aiChatPaper

Een Diffusie Transformer Begeleiden met zijn Interne Dynamiek

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

December 30, 2025
Auteurs: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI

Samenvatting

Het diffusiemodel vertoont een krachtig vermogen om de volledige (conditionele) gegevensverdeling vast te leggen. Vanwege onvoldoende training en data om de lage-waarschijnlijkheidsgebieden te leren dekken, wordt het model echter afgestraft wanneer het er niet in slaagt hoogwaardige afbeeldingen te genereren die met deze gebieden overeenkomen. Om een betere generatiekwaliteit te bereiken, kunnen begeleidingsstrategieën zoals classifier-free guidance (CFG) de steekproeven tijdens de samplingfase naar de hoge-waarschijnlijkheidsgebieden sturen. De standaard CFG leidt echter vaak tot overgesimplificeerde of vervormde resultaten. Anderzijds wordt de alternatieve aanpak om diffusiemodellen met hun slechte versie te begeleiden, beperkt door zorgvuldig ontworpen degradatiestrategieën, extra training en bijkomende samplingstappen. In dit artikel stellen we een eenvoudige maar effectieve strategie voor, Internal Guidance (IG), die tijdens het trainingsproces een aanvullende supervisie op de tussenlaag introduceert en tijdens het samplingproces de uitvoeren van de tussen- en diepe lagen extrapoleert om generatieve resultaten te verkrijgen. Deze eenvoudige strategie levert aanzienlijke verbeteringen op in zowel trainings efficiëntie als generatiekwaliteit op verschillende basislijnen. Op ImageNet 256x256 behaalt SiT-XL/2+IG een FID=5,31 en FID=1,75 na respectievelijk 80 en 800 epochs. Indrukwekkender is dat LightningDiT-XL/1+IG een FID=1,34 bereikt, wat een aanzienlijke marge vertegenwoordigt ten opzichte van alle andere methoden. In combinatie met CFG behaalt LightningDiT-XL/1+IG de huidige state-of-the-art FID van 1,19.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
PDF73January 4, 2026