ChatPaper.aiChatPaper

Back to Basics: Lassen wir die Rauschunterdrückung von generativen Modellen die Rauschunterdrückung übernehmen

Back to Basics: Let Denoising Generative Models Denoise

November 17, 2025
papers.authors: Tianhong Li, Kaiming He
cs.AI

papers.abstract

Aktuelle Diffusionsmodelle zur Rauschunterdrückung "entrauschen" nicht im klassischen Sinne, das heißt, sie sagen keine sauberen Bilder direkt vorher. Stattdessen sagen die neuronalen Netze Rauschen oder eine verrauschte Größe vorher. In diesem Artikel legen wir dar, dass die Vorhersage sauberer Daten und die Vorhersage verrauschter Größen grundlegend verschieden sind. Gemäß der Mannigfaltigkeitsannahme sollten natürliche Daten auf einer niedrigdimensionalen Mannigfaltigkeit liegen, während verrauschte Größen dies nicht tun. Ausgehend von dieser Annahme befürworten wir Modelle, die direkt saubere Daten vorhersagen, was scheinbar leistungsschwachen Netzwerken ermöglicht, in sehr hochdimensionalen Räumen effektiv zu arbeiten. Wir zeigen, dass einfache Transformer mit großen Patches auf Pixeln starke generative Modelle sein können: ohne Tokenisierer, ohne Vorabtraining und ohne zusätzlichen Verlust. Unser Ansatz ist konzeptionell nichts weiter als "einfach Bild-Transformer", oder wie wir es nennen: JiT. Wir berichten über wettbewerbsfähige Ergebnisse mit JiT und großen Patchgrößen von 16 und 32 auf ImageNet bei Auflösungen von 256 und 512, wo die Vorhersage hochdimensionaler verrauschter Größen katastrophal scheitern kann. Da unsere Netze zurück zu den Grundlagen der Mannigfaltigkeit abbilden, kehrt unsere Forschung zu den Grundlagen zurück und verfolgt ein in sich geschlossenes Paradigma für Transformer-basierte Diffusion auf rohen natürlichen Daten.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.
PDF591December 1, 2025