Terug naar de basis: Laat denoisende generatieve modellen ruis verwijderen
Back to Basics: Let Denoising Generative Models Denoise
November 17, 2025
Auteurs: Tianhong Li, Kaiming He
cs.AI
Samenvatting
Hedendaagse denoiserende diffusiemodellen "denoisen" niet in de klassieke zin, dat wil zeggen, ze voorspellen niet direct schone beelden. In plaats daarvan voorspellen de neurale netwerken ruis of een verruiste grootheid. In dit artikel suggereren we dat het voorspellen van schone data en het voorspellen van verruiste grootheden fundamenteel verschillend zijn. Volgens de manifold-aanname zou natuurlijke data op een laagdimensionale variëteit moeten liggen, terwijl verruiste grootheden dat niet doen. Uitgaande van deze aanname bepleiten we modellen die direct schone data voorspellen, wat ogenschijnlijk onderbemeten netwerken in staat stelt effectief te opereren in zeer hoogdimensionale ruimten. We tonen aan dat eenvoudige Transformers met grote patches op pixels krachtige generatieve modellen kunnen zijn: zonder tokenizer, zonder voorafgaande training en zonder extra verlies. Onze aanpak is conceptueel niets meer dan "Gewoon beeld-Transformers", oftewel JiT, zoals wij het noemen. We rapporteren competitieve resultaten met JiT met grote patchgroottes van 16 en 32 op ImageNet bij resoluties van 256 en 512, waar het voorspellen van hoogdimensionale verruiste grootheden catastrofaal kan mislukken. Doordat onze netwerken terugkeren naar de basisprincipes van de variëteit, keert ons onderzoek terug naar de basis en streeft het naar een zelfstandig paradigma voor Transformer-gebaseerde diffusie op ruwe natuurlijke data.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.