ChatPaper.aiChatPaper

Guiando un Transformer de Difusión con la Dinámica Interna de Sí Mismo

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

December 30, 2025
Autores: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI

Resumen

El modelo de difusión presenta una potente capacidad para capturar la distribución completa de datos (condicional). Sin embargo, debido a la falta de entrenamiento y datos suficientes para aprender a cubrir las áreas de baja probabilidad, el modelo será penalizado por no generar imágenes de alta calidad correspondientes a estas áreas. Para lograr una mejor calidad de generación, estrategias de guiado como el guiado libre de clasificador (CFG) pueden dirigir las muestras hacia las áreas de alta probabilidad durante la etapa de muestreo. No obstante, el CFG estándar a menudo conduce a muestras sobresimplificadas o distorsionadas. Por otro lado, la línea alternativa de guiar el modelo de difusión con su versión degradada está limitada por estrategias de degradación cuidadosamente diseñadas, entrenamiento adicional y pasos de muestreo extra. En este artículo, proponemos una estrategia simple pero efectiva llamada Guiado Interno (IG), que introduce una supervisión auxiliar en la capa intermedia durante el proceso de entrenamiento y extrapola las salidas de las capas intermedias y profundas para obtener resultados generativos durante el proceso de muestreo. Esta estrategia simple produce mejoras significativas tanto en la eficiencia del entrenamiento como en la calidad de generación en varios modelos base. En ImageNet 256x256, SiT-XL/2+IG logra FID=5.31 y FID=1.75 a 80 y 800 épocas. Más impresionantemente, LightningDiT-XL/1+IG alcanza un FID=1.34, lo que supone un gran margen de mejora respecto a todos estos métodos. Combinado con CFG, LightningDiT-XL/1+IG alcanza el estado del arte actual con un FID de 1.19.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
PDF41January 2, 2026