ChatPaper.aiChatPaper

ResAdapter: Adaptador de Resolução Consistente de Domínio para Modelos de Difusão

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Autores: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Resumo

Os recentes avanços em modelos de texto para imagem (por exemplo, Stable Diffusion) e tecnologias de personalização correspondentes (por exemplo, DreamBooth e LoRA) permitem que indivíduos gerem imagens de alta qualidade e imaginativas. No entanto, esses modelos frequentemente enfrentam limitações ao gerar imagens com resoluções fora de seu domínio de treinamento. Para superar essa limitação, apresentamos o Resolution Adapter (ResAdapter), um adaptador consistente de domínio projetado para modelos de difusão, capaz de gerar imagens com resoluções e proporções ilimitadas. Diferente de outros métodos de geração multi-resolução que processam imagens de resolução estática com operações complexas de pós-processamento, o ResAdapter gera diretamente imagens com resolução dinâmica. Especificamente, após aprender uma compreensão profunda de prioridades puras de resolução, o ResAdapter, treinado em um conjunto de dados geral, gera imagens livres de resolução com modelos de difusão personalizados, preservando seu domínio de estilo original. Experimentos abrangentes demonstram que o ResAdapter, com apenas 0,5M de parâmetros, pode processar imagens com resoluções flexíveis para modelos de difusão arbitrários. Experimentos mais extensos mostram que o ResAdapter é compatível com outros módulos (por exemplo, ControlNet, IP-Adapter e LCM-LoRA) para geração de imagens em uma ampla gama de resoluções, e pode ser integrado a outros modelos multi-resolução (por exemplo, ElasticDiffusion) para gerar eficientemente imagens de resolução mais alta. O link do projeto é https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024