ChatPaper.aiChatPaper

Retour à l'essentiel : Laissez les modèles génératifs de débruitage débruiter

Back to Basics: Let Denoising Generative Models Denoise

November 17, 2025
papers.authors: Tianhong Li, Kaiming He
cs.AI

papers.abstract

Les modèles de diffusion par débruitage actuels ne « débruitent » pas au sens classique, c'est-à-dire qu'ils ne prédisent pas directement des images propres. Au contraire, les réseaux neuronaux prédisent du bruit ou une quantité bruitée. Dans cet article, nous suggérons que prédire des données propres et prédire des quantités bruitées sont fondamentalement différents. Selon l'hypothèse de la variété, les données naturelles devraient se situer sur une variété de faible dimension, ce qui n'est pas le cas des quantités bruitées. Forts de cette hypothèse, nous préconisons des modèles qui prédisent directement les données propres, permettant ainsi à des réseaux apparemment sous-dimensionnés d'opérer efficacement dans des espaces de très haute dimension. Nous montrons que des Transformers simples à grandes patchs sur les pixels peuvent être des modèles génératifs puissants : sans tokeniseur, sans pré-entraînement et sans perte supplémentaire. Notre approche n'est conceptuellement rien de plus que « Juste des Transformers sur images », ou JiT, comme nous l'appelons. Nous rapportons des résultats compétitifs avec JiT utilisant des tailles de patchs importantes de 16 et 32 sur ImageNet aux résolutions 256 et 512, là où la prédiction de quantités bruitées en haute dimension peut échouer catastrophiquement. En ramenant nos réseaux aux fondamentaux de la variété, notre recherche revient à l'essentiel et poursuit un paradigme autonome pour la diffusion basée sur les Transformers appliquée aux données naturelles brutes.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.
PDF591December 1, 2025