Volver a lo básico: Dejemos que los modelos generativos de eliminación de ruido eliminen ruido.
Back to Basics: Let Denoising Generative Models Denoise
November 17, 2025
Autores: Tianhong Li, Kaiming He
cs.AI
Resumen
Los modelos de difusión para eliminación de ruido actuales no "eliminan ruido" en el sentido clásico, es decir, no predicen directamente imágenes limpias. Más bien, las redes neuronales predicen ruido o cantidades con ruido. En este artículo, sugerimos que predecir datos limpios y predecir cantidades con ruido son fundamentalmente diferentes. Según la hipótesis del múltiple, los datos naturales deberían residir en un múltiple de baja dimensión, mientras que las cantidades con ruido no lo hacen. Con esta premisa, abogamos por modelos que predigan directamente datos limpios, lo que permite que redes aparentemente de capacidad limitada operen efectivamente en espacios de muy alta dimensionalidad. Demostramos que Transformadores simples de parches grandes a nivel de píxeles pueden ser modelos generativos potentes: sin necesidad de tokenizador, sin pre-entrenamiento y sin pérdidas adicionales. Nuestro enfoque es conceptualmente nada más que "Simplemente Transformadores de imágenes", o JiT por sus siglas en inglés. Reportamos resultados competitivos usando JiT con tamaños de parche grandes de 16 y 32 en ImageNet a resoluciones de 256 y 512, donde predecir cantidades con ruido de alta dimensionalidad puede fallar catastróficamente. Al hacer que nuestras redes regresen a los fundamentos del múltiple, nuestra investigación vuelve a lo básico y persigue un paradigma autocontenido para la difusión basada en Transformadores sobre datos naturales en bruto.
English
Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.