StreamMultiDiffusion: Generación Interactiva en Tiempo Real con Control Semántico Basado en Regiones

Resumen

El enorme éxito de los modelos de difusión en la síntesis de texto a imagen los ha convertido en candidatos prometedores para la próxima generación de aplicaciones de usuario final para la generación y edición de imágenes. Trabajos anteriores se han centrado en mejorar la usabilidad de los modelos de difusión reduciendo el tiempo de inferencia o aumentando la interactividad del usuario permitiendo nuevos controles detallados, como indicaciones de texto basadas en regiones. Sin embargo, empíricamente encontramos que integrar ambas ramas de trabajo no es trivial, lo que limita el potencial de los modelos de difusión. Para resolver esta incompatibilidad, presentamos StreamMultiDiffusion, el primer marco de generación de texto a imagen basado en regiones en tiempo real. Al estabilizar técnicas de inferencia rápida y reestructurar el modelo en una arquitectura de procesamiento por lotes de múltiples indicaciones recién propuesta, logramos una generación de panoramas 10 veces más rápida que las soluciones existentes, y una velocidad de generación de 1.57 FPS en la síntesis de texto a imagen basada en regiones en una sola GPU RTX 2080 Ti. Nuestra solución abre un nuevo paradigma para la generación interactiva de imágenes llamado paleta semántica, donde se generan imágenes de alta calidad en tiempo real a partir de múltiples regiones dibujadas a mano, codificando significados semánticos prescritos (por ejemplo, águila, chica). Nuestro código y aplicación de demostración están disponibles en https://github.com/ironjr/StreamMultiDiffusion.

English

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve times 10 faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.

StreamMultiDiffusion: Generación Interactiva en Tiempo Real con Control Semántico Basado en Regiones

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Resumen

Support