StreamMultiDiffusie: Real-time Interactieve Generatie met Regio-gebaseerde Semantische Controle

Samenvatting

Het enorme succes van diffusiemodellen in tekst-naar-beeld-synthese heeft hen tot veelbelovende kandidaten gemaakt voor de volgende generatie eindgebruikerstoepassingen voor beeldgeneratie en -bewerking. Eerdere werken hebben zich gericht op het verbeteren van de bruikbaarheid van diffusiemodellen door de inferentietijd te verkorten of de gebruikersinteractiviteit te vergroten door nieuwe, fijnmazige besturingselementen mogelijk te maken, zoals regio-gebaseerde tekstprompts. We constateren echter empirisch dat het integreren van beide takken van werk niet triviaal is, wat het potentieel van diffusiemodellen beperkt. Om deze onverenigbaarheid op te lossen, presenteren we StreamMultiDiffusion, het eerste real-time regio-gebaseerde tekst-naar-beeld-generatieframework. Door snelle inferentietechnieken te stabiliseren en het model te herstructureren in een nieuw voorgestelde multi-prompt stream batch-architectuur, bereiken we een tien keer snellere panoramageneratie dan bestaande oplossingen, en een generatiesnelheid van 1,57 FPS in regio-gebaseerde tekst-naar-beeld-synthese op een enkele RTX 2080 Ti GPU. Onze oplossing opent een nieuw paradigma voor interactieve beeldgeneratie genaamd semantisch palet, waarbij hoogwaardige beelden in real-time worden gegenereerd uit meerdere handgetekende regio's die voorgeschreven semantische betekenissen coderen (bijv. adelaar, meisje). Onze code en demo-applicatie zijn beschikbaar op https://github.com/ironjr/StreamMultiDiffusion.

English

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve times 10 faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.

StreamMultiDiffusie: Real-time Interactieve Generatie met Regio-gebaseerde Semantische Controle

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Samenvatting

Support