ResAdapter: Domeinconsistente Resolutie-adapter voor Diffusiemodellen
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
March 4, 2024
Auteurs: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeldmodellen (bijv. Stable Diffusion) en bijbehorende gepersonaliseerde technologieën (bijv. DreamBooth en LoRA) stelt individuen in staat om hoogwaardige en fantasierijke afbeeldingen te genereren. Deze modellen hebben echter vaak beperkingen bij het genereren van afbeeldingen met resoluties buiten hun getrainde domein. Om deze beperking te overwinnen, presenteren we de Resolution Adapter (ResAdapter), een domeinconsistente adapter ontworpen voor diffusiemodellen om afbeeldingen te genereren met onbeperkte resoluties en aspectverhoudingen. In tegenstelling tot andere multi-resolutie generatiemethoden die afbeeldingen van statische resolutie verwerken met complexe nabewerkingsoperaties, genereert ResAdapter direct afbeeldingen met dynamische resolutie. Met name na het leren van een diep begrip van pure resolutiepriors, genereert ResAdapter, getraind op een algemene dataset, resolutievrije afbeeldingen met gepersonaliseerde diffusiemodellen terwijl het oorspronkelijke stijldomein behouden blijft. Uitgebreide experimenten tonen aan dat ResAdapter met slechts 0,5M afbeeldingen met flexibele resoluties kan verwerken voor willekeurige diffusiemodellen. Verdere experimenten laten zien dat ResAdapter compatibel is met andere modules (bijv. ControlNet, IP-Adapter en LCM-LoRA) voor beeldgeneratie over een breed scala aan resoluties, en kan worden geïntegreerd in andere multi-resolutiemodellen (bijv. ElasticDiffusion) voor het efficiënt genereren van afbeeldingen met hogere resolutie. Het project is te vinden op https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and
corresponding personalized technologies (e.g., DreamBooth and LoRA) enables
individuals to generate high-quality and imaginative images. However, they
often suffer from limitations when generating images with resolutions outside
of their trained domain. To overcome this limitation, we present the Resolution
Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models
to generate images with unrestricted resolutions and aspect ratios. Unlike
other multi-resolution generation methods that process images of static
resolution with complex post-process operations, ResAdapter directly generates
images with the dynamical resolution. Especially, after learning a deep
understanding of pure resolution priors, ResAdapter trained on the general
dataset, generates resolution-free images with personalized diffusion models
while preserving their original style domain. Comprehensive experiments
demonstrate that ResAdapter with only 0.5M can process images with flexible
resolutions for arbitrary diffusion models. More extended experiments
demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet,
IP-Adapter and LCM-LoRA) for image generation across a broad range of
resolutions, and can be integrated into other multi-resolution model (e.g.,
ElasticDiffusion) for efficiently generating higher-resolution images. Project
link is https://res-adapter.github.io