ChatPaper.aiChatPaper

ResAdapter: Adattatore di Risoluzione per Modelli di Diffusione con Coerenza di Dominio

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Autori: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Abstract

I recenti progressi nei modelli di testo-immagine (ad esempio, Stable Diffusion) e nelle corrispondenti tecnologie personalizzate (ad esempio, DreamBooth e LoRA) consentono agli individui di generare immagini di alta qualità e di grande immaginazione. Tuttavia, questi modelli spesso presentano limitazioni quando si tratta di generare immagini con risoluzioni al di fuori del loro dominio di addestramento. Per superare questa limitazione, presentiamo il Resolution Adapter (ResAdapter), un adattatore coerente con il dominio progettato per i modelli di diffusione, in grado di generare immagini con risoluzioni e rapporti d'aspetto illimitati. A differenza di altri metodi di generazione multi-risoluzione che elaborano immagini con risoluzioni statiche attraverso complesse operazioni di post-processo, ResAdapter genera direttamente immagini con risoluzioni dinamiche. In particolare, dopo aver appreso una profonda comprensione dei puri prior di risoluzione, ResAdapter, addestrato su un dataset generale, genera immagini senza vincoli di risoluzione utilizzando modelli di diffusione personalizzati, preservando il loro dominio stilistico originale. Esperimenti completi dimostrano che ResAdapter, con soli 0.5M di parametri, può elaborare immagini con risoluzioni flessibili per modelli di diffusione arbitrari. Ulteriori esperimenti estesi dimostrano che ResAdapter è compatibile con altri moduli (ad esempio, ControlNet, IP-Adapter e LCM-LoRA) per la generazione di immagini in un'ampia gamma di risoluzioni, e può essere integrato in altri modelli multi-risoluzione (ad esempio, ElasticDiffusion) per generare in modo efficiente immagini a risoluzione più elevata. Il link del progetto è https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024