ChatPaper.aiChatPaper

ResAdapter: 拡散モデル向けドメイン整合解像度アダプター

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

March 4, 2024
著者: Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
cs.AI

要旨

近年のテキストから画像生成モデル(例:Stable Diffusion)およびそれに対応するパーソナライズ技術(例:DreamBoothやLoRA)の進展により、個人が高品質で想像力豊かな画像を生成することが可能になりました。しかし、これらのモデルは、訓練された領域外の解像度で画像を生成する際に制限に直面することがしばしばあります。この制限を克服するため、我々はResolution Adapter(ResAdapter)を提案します。これは、拡散モデル向けに設計されたドメイン一貫性のあるアダプタで、制限のない解像度とアスペクト比で画像を生成することができます。他のマルチ解像度生成手法が静的な解像度の画像を複雑な後処理操作で処理するのとは異なり、ResAdapterは動的な解像度で直接画像を生成します。特に、純粋な解像度の事前知識を深く理解した後、一般的なデータセットで訓練されたResAdapterは、パーソナライズされた拡散モデルを使用して、元のスタイルドメインを保ちつつ解像度制限のない画像を生成します。包括的な実験により、わずか0.5MのResAdapterが任意の拡散モデルに対して柔軟な解像度で画像を処理できることが実証されました。さらに拡張された実験では、ResAdapterが他のモジュール(例:ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、広範囲の解像度で画像を生成できること、また他のマルチ解像度モデル(例:ElasticDiffusion)に統合して高解像度画像を効率的に生成できることが示されました。プロジェクトリンクはhttps://res-adapter.github.ioです。
English
Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io
PDF151December 15, 2024