FreeScale: Liberando a Resolução dos Modelos de Difusão através da Fusão de Escala sem Ajustes.
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
Autores: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
Resumo
Os modelos de difusão visual alcançam progressos notáveis, no entanto, geralmente são treinados em resoluções limitadas devido à falta de dados de alta resolução e recursos computacionais limitados, prejudicando sua capacidade de gerar imagens ou vídeos de alta fidelidade em resoluções mais altas. Esforços recentes têm explorado estratégias sem ajuste para demonstrar o potencial inexplorado de geração visual em alta resolução de modelos pré-treinados. No entanto, esses métodos ainda são propensos a produzir conteúdo visual de baixa qualidade com padrões repetitivos. O principal obstáculo reside no aumento inevitável de informações de alta frequência quando o modelo gera conteúdo visual que excede sua resolução de treinamento, resultando em padrões repetitivos indesejados decorrentes dos erros acumulados. Para enfrentar esse desafio, propomos o FreeScale, um paradigma de inferência sem ajuste para permitir a geração visual em alta resolução por meio da fusão de escala. Especificamente, o FreeScale processa informações de diferentes escalas receptivas e, em seguida, as funde extraindo os componentes de frequência desejados. Experimentos extensivos validam a superioridade de nosso paradigma na ampliação das capacidades de geração visual em alta resolução para modelos de imagem e vídeo. Notavelmente, em comparação com o método anteriormente mais eficaz, o FreeScale desbloqueia a geração de imagens em resolução de 8k pela primeira vez.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary