Desconstruindo Modelos de Difusão de Ruído para Aprendizado Autossupervisionado

Resumo

Neste estudo, examinamos as capacidades de aprendizado de representação dos Modelos de Difusão de Ruído (DDM, na sigla em inglês), originalmente desenvolvidos para geração de imagens. Nossa filosofia é desconstruir um DDM, transformando-o gradualmente em um Autoencoder de Ruído (DAE, na sigla em inglês) clássico. Esse procedimento desconstrucionista nos permite explorar como diversos componentes dos DDMs modernos influenciam o aprendizado de representação auto-supervisionado. Observamos que apenas alguns poucos componentes modernos são críticos para o aprendizado de boas representações, enquanto muitos outros são dispensáveis. Nosso estudo culmina em uma abordagem altamente simplificada que, em grande medida, se assemelha a um DAE clássico. Esperamos que nosso estudo reacenda o interesse em uma família de métodos clássicos no âmbito do aprendizado auto-supervisionado moderno.

English

In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning.

Desconstruindo Modelos de Difusão de Ruído para Aprendizado Autossupervisionado

Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Resumo

Support