Decostruzione dei Modelli di Denoising Diffusion per l'Apprendimento Auto-Supervisionato

Abstract

In questo studio, esaminiamo le capacità di apprendimento di rappresentazioni dei Modelli di Diffusione Denoising (DDM), originariamente progettati per la generazione di immagini. La nostra filosofia consiste nel decostruire un DDM, trasformandolo gradualmente in un classico Denoising Autoencoder (DAE). Questa procedura decostruttiva ci permette di esplorare come i vari componenti dei moderni DDM influenzano l'apprendimento auto-supervisionato di rappresentazioni. Osserviamo che solo pochissimi componenti moderni sono cruciali per apprendere buone rappresentazioni, mentre molti altri sono non essenziali. Il nostro studio arriva infine a un approccio altamente semplificato che, in larga misura, assomiglia a un classico DAE. Speriamo che il nostro studio possa ravvivare l'interesse per una famiglia di metodi classici nell'ambito del moderno apprendimento auto-supervisionato.

English

In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning.

Decostruzione dei Modelli di Denoising Diffusion per l'Apprendimento Auto-Supervisionato

Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Abstract

Support