Ritorno alle basi: lasciamo che i modelli generativi di denoising rimuovano il rumore
Back to Basics: Let Denoising Generative Models Denoise
November 17, 2025
Autori: Tianhong Li, Kaiming He
cs.AI
Abstract
I moderni modelli di diffusione per la rimozione del rumore non "eliminano il rumore" nel senso classico del termine, ovvero non prevedono direttamente immagini pulite. Piuttosto, le reti neurali prevedono il rumore o una quantità rumorosa. In questo articolo, suggeriamo che prevedere dati puliti e prevedere quantità rumorose siano fondamentalmente diversi. Secondo l'ipotesi della varietà, i dati naturali dovrebbero giacere su una varietà a bassa dimensionalità, mentre le quantità rumorose non lo fanno. Partendo da questo presupposto, sosteniamo l'uso di modelli che prevedano direttamente i dati puliti, il che consente a reti apparentemente sotto-dimensionate di operare efficacemente in spazi ad altissima dimensionalità. Dimostriamo che semplici Transformer con patch di grandi dimensioni applicati ai pixel possono essere potenti modelli generativi: senza l'uso di tokenizer, senza pre-addestramento e senza perdite aggiuntive. Il nostro approccio è concettualmente niente più che "Semplici Transformer su immagini", o JiT, come li chiamiamo. Riferiamo risultati competitivi utilizzando JiT con dimensioni di patch pari a 16 e 32 su ImageNet a risoluzioni di 256 e 512, casi in cui la previsione di quantità rumorose ad alta dimensionalità può fallire in modo catastrofico. Con le nostre reti che riportano il mapping ai principi fondamentali della varietà, la nostra ricerca torna alle basi e persegue un paradigma autonomo per la diffusione basata su Transformer applicata a dati naturali grezzi.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.