StreamMultiDiffusie: Real-time Interactieve Generatie met Regio-gebaseerde Semantische Controle
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
March 14, 2024
Auteurs: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee
cs.AI
Samenvatting
Het enorme succes van diffusiemodellen in tekst-naar-beeld-synthese heeft hen tot veelbelovende kandidaten gemaakt voor de volgende generatie eindgebruikerstoepassingen voor beeldgeneratie en -bewerking. Eerdere werken hebben zich gericht op het verbeteren van de bruikbaarheid van diffusiemodellen door de inferentietijd te verkorten of de gebruikersinteractiviteit te vergroten door nieuwe, fijnmazige besturingselementen mogelijk te maken, zoals regio-gebaseerde tekstprompts. We constateren echter empirisch dat het integreren van beide takken van werk niet triviaal is, wat het potentieel van diffusiemodellen beperkt. Om deze onverenigbaarheid op te lossen, presenteren we StreamMultiDiffusion, het eerste real-time regio-gebaseerde tekst-naar-beeld-generatieframework. Door snelle inferentietechnieken te stabiliseren en het model te herstructureren in een nieuw voorgestelde multi-prompt stream batch-architectuur, bereiken we een tien keer snellere panoramageneratie dan bestaande oplossingen, en een generatiesnelheid van 1,57 FPS in regio-gebaseerde tekst-naar-beeld-synthese op een enkele RTX 2080 Ti GPU. Onze oplossing opent een nieuw paradigma voor interactieve beeldgeneratie genaamd semantisch palet, waarbij hoogwaardige beelden in real-time worden gegenereerd uit meerdere handgetekende regio's die voorgeschreven semantische betekenissen coderen (bijv. adelaar, meisje). Onze code en demo-applicatie zijn beschikbaar op https://github.com/ironjr/StreamMultiDiffusion.
English
The enormous success of diffusion models in text-to-image synthesis has made
them promising candidates for the next generation of end-user applications for
image generation and editing. Previous works have focused on improving the
usability of diffusion models by reducing the inference time or increasing user
interactivity by allowing new, fine-grained controls such as region-based text
prompts. However, we empirically find that integrating both branches of works
is nontrivial, limiting the potential of diffusion models. To solve this
incompatibility, we present StreamMultiDiffusion, the first real-time
region-based text-to-image generation framework. By stabilizing fast inference
techniques and restructuring the model into a newly proposed multi-prompt
stream batch architecture, we achieve times 10 faster panorama generation
than existing solutions, and the generation speed of 1.57 FPS in region-based
text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a
new paradigm for interactive image generation named semantic palette, where
high-quality images are generated in real-time from given multiple hand-drawn
regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code
and demo application are available at
https://github.com/ironjr/StreamMultiDiffusion.