StreamMultiDiffusion : Génération interactive en temps réel avec contrôle sémantique basé sur les régions
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
March 14, 2024
Auteurs: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee
cs.AI
Résumé
Le succès considérable des modèles de diffusion dans la synthèse d'images à partir de texte en fait des candidats prometteurs pour la prochaine génération d'applications destinées aux utilisateurs finaux dans le domaine de la génération et de l'édition d'images. Les travaux précédents se sont concentrés sur l'amélioration de l'utilisabilité des modèles de diffusion en réduisant le temps d'inférence ou en augmentant l'interactivité grâce à de nouveaux contrôles fins, tels que des invites textuelles basées sur des régions. Cependant, nous constatons empiriquement que l'intégration de ces deux branches de travaux est non triviale, limitant ainsi le potentiel des modèles de diffusion. Pour résoudre cette incompatibilité, nous présentons StreamMultiDiffusion, le premier cadre de génération d'images à partir de texte basé sur des régions en temps réel. En stabilisant les techniques d'inférence rapide et en restructurant le modèle dans une architecture de traitement par lots multi-prompts nouvellement proposée, nous obtenons une génération de panoramas 10 fois plus rapide que les solutions existantes, ainsi qu'une vitesse de génération de 1,57 FPS pour la synthèse d'images à partir de texte basée sur des régions, le tout sur une seule carte graphique RTX 2080 Ti. Notre solution ouvre un nouveau paradigme pour la génération interactive d'images, appelé palette sémantique, où des images de haute qualité sont générées en temps réel à partir de plusieurs régions dessinées à la main, encodant des significations sémantiques prescrites (par exemple, aigle, fille). Notre code et notre application de démonstration sont disponibles à l'adresse suivante : https://github.com/ironjr/StreamMultiDiffusion.
English
The enormous success of diffusion models in text-to-image synthesis has made
them promising candidates for the next generation of end-user applications for
image generation and editing. Previous works have focused on improving the
usability of diffusion models by reducing the inference time or increasing user
interactivity by allowing new, fine-grained controls such as region-based text
prompts. However, we empirically find that integrating both branches of works
is nontrivial, limiting the potential of diffusion models. To solve this
incompatibility, we present StreamMultiDiffusion, the first real-time
region-based text-to-image generation framework. By stabilizing fast inference
techniques and restructuring the model into a newly proposed multi-prompt
stream batch architecture, we achieve times 10 faster panorama generation
than existing solutions, and the generation speed of 1.57 FPS in region-based
text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a
new paradigm for interactive image generation named semantic palette, where
high-quality images are generated in real-time from given multiple hand-drawn
regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code
and demo application are available at
https://github.com/ironjr/StreamMultiDiffusion.Summary
AI-Generated Summary