기본으로 돌아가자: 노이즈 제거 생성 모델이 노이즈를 제거하게 하라
Back to Basics: Let Denoising Generative Models Denoise
November 17, 2025
저자: Tianhong Li, Kaiming He
cs.AI
초록
오늘날의 디노이징 디퓨전 모델은 고전적인 의미의 '노이즈 제거'를 수행하지 않으며, 즉 깨끗한 이미지를 직접 예측하지 않습니다. 오히려 신경망은 노이즈 또는 노이즈가 첨가된 양을 예측합니다. 본 논문에서는 깨끗한 데이터를 예측하는 것과 노이즈가 첨가된 양을 예측하는 것이 근본적으로 다르다는 점을 제안합니다. 매니폴드 가정에 따르면 자연 데이터는 저차원 매니폴드 상에 존재해야 하는 반면, 노이즈가 첨가된 양은 그렇지 않습니다. 이 가정을 바탕으로 우리는 깨끗한 데이터를 직접 예측하는 모델을 주장하며, 이를 통해 명백히 낮은 용량의 네트워크가 매우 고차원 공간에서 효과적으로 작동할 수 있게 합니다. 우리는 픽셀 기반의 단순한 대형 패치 트랜스포머가 강력한 생성 모델이 될 수 있음을 보여줍니다: 토크나이저 없이, 사전 훈련 없이, 추가 손실 없이도 가능합니다. 우리의 접근 방식은 개념적으로 "그냥 이미지 트랜스포머(Just image Transformers)", 즉 약어로 JiT에 불과합니다. 우리는 ImageNet에서 256 및 512 해상도로 16과 32의 큰 패치 크기를 사용한 JiT의 경쟁력 있는 결과를 보고하며, 고차원 노이즈 양을 예측하는 것이 치명적으로 실패할 수 있는 상황에서도 좋은 성능을 보입니다. 우리의 네트워크가 매니폴드의 기본 원리로 회귀함에 따라, 우리의 연구는 기본으로 돌아가 원시 자연 데이터 기반의 트랜스포머 디퓨전을 위한 자체 포함 패러다임을 추구합니다.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.