ChatPaper.aiChatPaper

확산 트랜스포머의 내부 역학을 활용한 자기 지도

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

December 30, 2025
저자: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI

초록

확산 모델은 (조건부) 데이터 분포 전체를 포착하는 강력한 능력을 보여줍니다. 그러나 낮은 확률 영역을 학습하기 위한 충분한 훈련과 데이터의 부족으로 인해, 모델은 이러한 영역에 해당하는 고품질 이미지를 생성하지 못할 경우 패널티를 받게 됩니다. 더 나은 생성 품질을 달성하기 위해, Classifier Free Guidance(CFG)와 같은 guidance 전략은 샘플링 단계에서 샘플을 높은 확률 영역으로 유도할 수 있습니다. 그러나 표준 CFG는 종종 지나치게 단순화되거나 왜곡된 샘플을 초래합니다. 한편, 열화된 버전의 모델로 확산 모델을 guidance하는 대안적인 접근법은 신중하게 설계된 열화 전략, 추가 훈련 및 추가 샘플링 단계에 의해 제한됩니다. 본 논문에서는 훈련 과정에서 중간 계층에 대한 보조 supervision을 도입하고, 샘플링 과정에서는 중간 및 깊은 계층의 출력을 외삽하여 생성 결과를 얻는 간단하면서 효과적인 전략인 Internal Guidance(IG)를 제안합니다. 이 간단한 전략은 다양한 베이스라인에서 훈련 효율성과 생성 품질 모두에서 상당한 향상을 가져옵니다. ImageNet 256x256에서 SiT-XL/2+IG는 80 및 800 epoch에서 FID=5.31 및 FID=1.75를 달성했습니다. 더욱 인상적으로는, LightningDiT-XL/1+IG는 FID=1.34를 달성하여 이러한 모든 방법들 사이에 큰 격차를 보여줍니다. CFG와 결합했을 때, LightningDiT-XL/1+IG는 현재 최고 수준인 1.19의 FID를 달성합니다.
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
PDF41January 2, 2026