FreSca: Revelando o Espaço de Escalonamento em Modelos de Difusão
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Autores: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Resumo
Os modelos de difusão oferecem uma impressionante capacidade de controle para tarefas de imagem, principalmente por meio de previsões de ruído que codificam informações específicas da tarefa e da orientação sem classificador, permitindo um dimensionamento ajustável. Esse mecanismo de dimensionamento define implicitamente um "espaço de dimensionamento", cujo potencial para manipulação semântica refinada permanece pouco explorado. Investigamos esse espaço, começando com a edição baseada em inversão, onde a diferença entre as previsões de ruído condicionais e incondicionais carrega informações semânticas cruciais. Nossa principal contribuição surge de uma análise de Fourier das previsões de ruído, revelando que seus componentes de baixa e alta frequência evoluem de maneira diferente ao longo da difusão. Com base nessa percepção, introduzimos o FreSca, um método simples que aplica o dimensionamento de orientação de forma independente a diferentes bandas de frequência no domínio de Fourier. O FreSca demonstra aprimorar os métodos existentes de edição de imagem sem necessidade de retreinamento. De forma empolgante, sua eficácia se estende a tarefas de compreensão de imagem, como estimativa de profundidade, gerando ganhos quantitativos em múltiplos conjuntos de dados.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary