ChatPaper.aiChatPaper

ResAdapter : Adaptateur de Résolution Cohérent pour les Modèles de Diffusion

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Auteurs: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Résumé

Les récents progrès dans les modèles de génération d'images à partir de texte (par exemple, Stable Diffusion) et les technologies de personnalisation associées (comme DreamBooth et LoRA) permettent aux individus de générer des images de haute qualité et imaginatives. Cependant, ces modèles rencontrent souvent des limitations lorsqu'il s'agit de générer des images avec des résolutions en dehors de leur domaine d'entraînement. Pour surmonter cette limitation, nous présentons le Resolution Adapter (ResAdapter), un adapteur cohérent avec le domaine conçu pour les modèles de diffusion afin de générer des images avec des résolutions et des rapports d'aspect non restreints. Contrairement à d'autres méthodes de génération multi-résolution qui traitent des images de résolution statique avec des opérations post-traitement complexes, ResAdapter génère directement des images avec une résolution dynamique. En particulier, après avoir appris une compréhension approfondie des priorités de résolution pure, ResAdapter, entraîné sur un ensemble de données général, génère des images sans contrainte de résolution avec des modèles de diffusion personnalisés tout en préservant leur domaine de style original. Des expériences approfondies démontrent que ResAdapter, avec seulement 0,5 million de paramètres, peut traiter des images avec des résolutions flexibles pour des modèles de diffusion arbitraires. Des expériences supplémentaires montrent que ResAdapter est compatible avec d'autres modules (comme ControlNet, IP-Adapter et LCM-LoRA) pour la génération d'images sur une large gamme de résolutions, et peut être intégré à d'autres modèles multi-résolution (comme ElasticDiffusion) pour générer efficacement des images de plus haute résolution. Le lien du projet est https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024