Guidare un Trasformatore a Diffusione con le Dinamiche Interne di Se Stesso
Guiding a Diffusion Transformer with the Internal Dynamics of Itself
December 30, 2025
Autori: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI
Abstract
Il modello di diffusione dimostra una notevole capacità di catturare l'intera distribuzione dati (condizionale). Tuttavia, a causa della mancanza di un addestramento e di dati sufficienti per apprendere a coprire le aree a bassa probabilità, il modello viene penalizzato quando non riesce a generare immagini di alta qualità corrispondenti a tali aree. Per ottenere una migliore qualità generativa, strategie di guida come la classifier free guidance (CFG) possono indirizzare i campioni verso le aree ad alta probabilità durante la fase di campionamento. Tuttavia, la CFG standard spesso porta a campioni eccessivamente semplificati o distorti. D'altro canto, l'approccio alternativo di guidare il modello di diffusione con una sua versione degradata è limitato dalla necessità di strategie di degradazione accuratamente progettate, addestramento aggiuntivo e passi di campionamento supplementari. In questo articolo, proponiamo una strategia semplice ma efficace, l'Internal Guidance (IG), che introduce una supervisione ausiliaria sullo strato intermedio durante il processo di addestramento ed estrapola gli output degli strati intermedi e profondi per ottenere i risultati generativi durante il processo di campionamento. Questa strategia semplice produce miglioramenti significativi sia nell'efficienza dell'addestramento che nella qualità generativa su varie baseline. Su ImageNet 256x256, SiT-XL/2+IG raggiunge FID=5.31 e FID=1.75 rispettivamente a 80 e 800 epoche. Ancora più impressionante, LightningDiT-XL/1+IG raggiunge un FID=1.34, che rappresenta un ampio margine di miglioramento rispetto a tutti questi metodi. In combinazione con CFG, LightningDiT-XL/1+IG raggiunge l'attuale stato dell'arte con un FID di 1.19.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.