ChatPaper.aiChatPaper

ResAdapter: Адаптер разрешения, согласованный с областью, для моделей диффузии

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Авторы: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Аннотация

Недавние достижения в моделях текст-в-изображение (например, Stable Diffusion) и соответствующих персонализированных технологиях (например, DreamBooth и LoRA) позволяют людям создавать качественные и креативные изображения. Однако они часто сталкиваются с ограничениями при создании изображений с разрешениями вне их обученной области. Для преодоления этого ограничения мы представляем Резольверный Адаптер (ResAdapter), доменно-согласованный адаптер, разработанный для моделей диффузии для генерации изображений с неограниченными разрешениями и соотношениями сторон. В отличие от других методов многоразрешенной генерации, которые обрабатывают изображения статического разрешения с помощью сложных операций постобработки, ResAdapter непосредственно генерирует изображения с динамическим разрешением. В частности, после изучения глубокого понимания чистых разрешений, ResAdapter, обученный на общем наборе данных, генерирует изображения без разрешения с персонализированными моделями диффузии, сохраняя их первоначальный стилевой домен. Комплексные эксперименты показывают, что ResAdapter с всего 0,5 млн. может обрабатывать изображения с гибкими разрешениями для произвольных моделей диффузии. Более расширенные эксперименты показывают, что ResAdapter совместим с другими модулями (например, ControlNet, IP-Adapter и LCM-LoRA) для генерации изображений по широкому спектру разрешений и может быть интегрирован в другую многоразрешенную модель (например, ElasticDiffusion) для эффективной генерации изображений более высокого разрешения. Ссылка на проект: https://res-adapter.github.io
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024