ChatPaper.aiChatPaper

ResAdapter: Adaptador de Resolución con Consistencia de Dominio para Modelos de Difusión

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
Autores: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

Resumen

Los recientes avances en modelos de texto a imagen (por ejemplo, Stable Diffusion) y las tecnologías de personalización correspondientes (por ejemplo, DreamBooth y LoRA) permiten a los usuarios generar imágenes de alta calidad y gran imaginación. Sin embargo, estos modelos suelen presentar limitaciones al generar imágenes con resoluciones fuera de su dominio de entrenamiento. Para superar esta limitación, presentamos el Resolution Adapter (ResAdapter), un adaptador consistente en el dominio diseñado para modelos de difusión que permite generar imágenes con resoluciones y relaciones de aspecto ilimitadas. A diferencia de otros métodos de generación multi-resolución que procesan imágenes de resolución estática con operaciones complejas de post-procesamiento, ResAdapter genera directamente imágenes con resolución dinámica. En particular, después de aprender un profundo entendimiento de los priores de resolución pura, ResAdapter, entrenado en un conjunto de datos general, genera imágenes libres de restricciones de resolución con modelos de difusión personalizados, preservando su dominio de estilo original. Experimentos exhaustivos demuestran que ResAdapter, con solo 0.5M de parámetros, puede procesar imágenes con resoluciones flexibles para modelos de difusión arbitrarios. Experimentos adicionales muestran que ResAdapter es compatible con otros módulos (por ejemplo, ControlNet, IP-Adapter y LCM-LoRA) para la generación de imágenes en un amplio rango de resoluciones, y puede integrarse en otros modelos multi-resolución (por ejemplo, ElasticDiffusion) para generar eficientemente imágenes de mayor resolución. El enlace del proyecto es https://res-adapter.github.io.
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024