ResAdapter: Adaptador de Resolução Consistente de Domínio para Modelos de Difusão
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
March 4, 2024
Autores: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI
Resumo
Os recentes avanços em modelos de texto para imagem (por exemplo, Stable Diffusion) e tecnologias de personalização correspondentes (por exemplo, DreamBooth e LoRA) permitem que indivíduos gerem imagens de alta qualidade e imaginativas. No entanto, esses modelos frequentemente enfrentam limitações ao gerar imagens com resoluções fora de seu domínio de treinamento. Para superar essa limitação, apresentamos o Resolution Adapter (ResAdapter), um adaptador consistente de domínio projetado para modelos de difusão, capaz de gerar imagens com resoluções e proporções ilimitadas. Diferente de outros métodos de geração multi-resolução que processam imagens de resolução estática com operações complexas de pós-processamento, o ResAdapter gera diretamente imagens com resolução dinâmica. Especificamente, após aprender uma compreensão profunda de prioridades puras de resolução, o ResAdapter, treinado em um conjunto de dados geral, gera imagens livres de resolução com modelos de difusão personalizados, preservando seu domínio de estilo original. Experimentos abrangentes demonstram que o ResAdapter, com apenas 0,5M de parâmetros, pode processar imagens com resoluções flexíveis para modelos de difusão arbitrários. Experimentos mais extensos mostram que o ResAdapter é compatível com outros módulos (por exemplo, ControlNet, IP-Adapter e LCM-LoRA) para geração de imagens em uma ampla gama de resoluções, e pode ser integrado a outros modelos multi-resolução (por exemplo, ElasticDiffusion) para gerar eficientemente imagens de resolução mais alta. O link do projeto é https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and
corresponding personalized technologies (e.g., DreamBooth and LoRA) enables
individuals to generate high-quality and imaginative images. However, they
often suffer from limitations when generating images with resolutions outside
of their trained domain. To overcome this limitation, we present the Resolution
Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models
to generate images with unrestricted resolutions and aspect ratios. Unlike
other multi-resolution generation methods that process images of static
resolution with complex post-process operations, ResAdapter directly generates
images with the dynamical resolution. Especially, after learning a deep
understanding of pure resolution priors, ResAdapter trained on the general
dataset, generates resolution-free images with personalized diffusion models
while preserving their original style domain. Comprehensive experiments
demonstrate that ResAdapter with only 0.5M can process images with flexible
resolutions for arbitrary diffusion models. More extended experiments
demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet,
IP-Adapter and LCM-LoRA) for image generation across a broad range of
resolutions, and can be integrated into other multi-resolution model (e.g.,
ElasticDiffusion) for efficiently generating higher-resolution images. Project
link is https://res-adapter.github.io