ChatPaper.aiChatPaper

Guider un Transformateur de Diffusion avec sa Dynamique Interne

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

December 30, 2025
papers.authors: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI

papers.abstract

Le modèle de diffusion présente une capacité remarquable à capturer l'intégralité de la distribution de données (conditionnelle). Cependant, en raison d'un apprentissage et de données insuffisants pour couvrir les zones de faible probabilité, le modèle est pénalisé par son incapacité à générer des images de haute qualité correspondant à ces zones. Pour obtenir une meilleure qualité de génération, des stratégies de guidage telles que le guidage sans classifieur (CFG) peuvent orienter les échantillons vers les zones de haute probabilité durant l'étape d'échantillonnage. Toutefois, le CFG standard conduit souvent à des échantillons excessivement simplifiés ou déformés. D'autre part, l'approche alternative consistant à guider le modèle de diffusion avec une version dégradée est limitée par des stratégies de dégradation minutieusement conçues, un entraînement supplémentaire et des étapes d'échantillonnage additionnelles. Dans cet article, nous proposons une stratégie simple mais efficace, le Guidage Interne (IG), qui introduit une supervision auxiliaire sur la couche intermédiaire pendant l'entraînement et extrapole les sorties des couches intermédiaires et profondes pour obtenir des résultats génératifs durant l'échantillonnage. Cette stratégie simple apporte des améliorations significatives tant en efficacité d'entraînement qu'en qualité de génération sur diverses lignes de base. Sur ImageNet 256x256, SiT-XL/2+IG atteint un FID=5,31 et un FID=1,75 à 80 et 800 époques. Plus impressionnant encore, LightningDiT-XL/1+IG atteint un FID=1,34, créant un écart important avec toutes ces méthodes. Combiné au CFG, LightningDiT-XL/1+IG établit l'état de l'art actuel avec un FID de 1,19.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
PDF41January 2, 2026