StreamMultiDiffusion : Génération interactive en temps réel avec contrôle sémantique basé sur les régions

papers.abstract

Le succès considérable des modèles de diffusion dans la synthèse d'images à partir de texte en fait des candidats prometteurs pour la prochaine génération d'applications destinées aux utilisateurs finaux dans le domaine de la génération et de l'édition d'images. Les travaux précédents se sont concentrés sur l'amélioration de l'utilisabilité des modèles de diffusion en réduisant le temps d'inférence ou en augmentant l'interactivité grâce à de nouveaux contrôles fins, tels que des invites textuelles basées sur des régions. Cependant, nous constatons empiriquement que l'intégration de ces deux branches de travaux est non triviale, limitant ainsi le potentiel des modèles de diffusion. Pour résoudre cette incompatibilité, nous présentons StreamMultiDiffusion, le premier cadre de génération d'images à partir de texte basé sur des régions en temps réel. En stabilisant les techniques d'inférence rapide et en restructurant le modèle dans une architecture de traitement par lots multi-prompts nouvellement proposée, nous obtenons une génération de panoramas 10 fois plus rapide que les solutions existantes, ainsi qu'une vitesse de génération de 1,57 FPS pour la synthèse d'images à partir de texte basée sur des régions, le tout sur une seule carte graphique RTX 2080 Ti. Notre solution ouvre un nouveau paradigme pour la génération interactive d'images, appelé palette sémantique, où des images de haute qualité sont générées en temps réel à partir de plusieurs régions dessinées à la main, encodant des significations sémantiques prescrites (par exemple, aigle, fille). Notre code et notre application de démonstration sont disponibles à l'adresse suivante : https://github.com/ironjr/StreamMultiDiffusion.

English

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve times 10 faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.

StreamMultiDiffusion : Génération interactive en temps réel avec contrôle sémantique basé sur les régions

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

papers.abstract

Support