ChatPaper.aiChatPaper

ResAdapter: Domänenkonsistenter Auflösungsadapter für Diffusionsmodelle

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Autoren: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Zusammenfassung

Jüngste Fortschritte in Text-zu-Bild-Modellen (z. B. Stable Diffusion) und entsprechenden personalisierten Technologien (z. B. DreamBooth und LoRA) ermöglichen es Einzelpersonen, hochwertige und imaginative Bilder zu erzeugen. Allerdings stoßen diese oft auf Einschränkungen, wenn Bilder mit Auflösungen außerhalb ihres trainierten Bereichs generiert werden sollen. Um diese Einschränkung zu überwinden, präsentieren wir den Resolution Adapter (ResAdapter), einen domänenkonsistenten Adapter, der für Diffusionsmodelle entwickelt wurde, um Bilder mit uneingeschränkten Auflösungen und Seitenverhältnissen zu erzeugen. Im Gegensatz zu anderen Multi-Resolution-Generierungsmethoden, die Bilder mit statischer Auflösung durch komplexe Nachbearbeitungsoperationen verarbeiten, generiert ResAdapter direkt Bilder mit dynamischer Auflösung. Insbesondere nach dem Erlernen eines tiefen Verständnisses von reinen Auflösungs-Priors erzeugt ResAdapter, das auf einem allgemeinen Datensatz trainiert wurde, auflösungsfreie Bilder mit personalisierten Diffusionsmodellen, während der ursprüngliche Stilbereich erhalten bleibt. Umfassende Experimente zeigen, dass ResAdapter mit nur 0,5 M Parametern Bilder mit flexiblen Auflösungen für beliebige Diffusionsmodelle verarbeiten kann. Weitere erweiterte Experimente demonstrieren, dass ResAdapter mit anderen Modulen (z. B. ControlNet, IP-Adapter und LCM-LoRA) für die Bildgenerierung über einen breiten Bereich von Auflösungen kompatibel ist und in andere Multi-Resolution-Modelle (z. B. ElasticDiffusion) integriert werden kann, um effizient höher aufgelöste Bilder zu erzeugen. Der Projektlink ist https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024