StreamMultiDiffusion: Generación Interactiva en Tiempo Real con Control Semántico Basado en Regiones
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
March 14, 2024
Autores: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee
cs.AI
Resumen
El enorme éxito de los modelos de difusión en la síntesis de texto a imagen los ha convertido en candidatos prometedores para la próxima generación de aplicaciones de usuario final para la generación y edición de imágenes. Trabajos anteriores se han centrado en mejorar la usabilidad de los modelos de difusión reduciendo el tiempo de inferencia o aumentando la interactividad del usuario permitiendo nuevos controles detallados, como indicaciones de texto basadas en regiones. Sin embargo, empíricamente encontramos que integrar ambas ramas de trabajo no es trivial, lo que limita el potencial de los modelos de difusión. Para resolver esta incompatibilidad, presentamos StreamMultiDiffusion, el primer marco de generación de texto a imagen basado en regiones en tiempo real. Al estabilizar técnicas de inferencia rápida y reestructurar el modelo en una arquitectura de procesamiento por lotes de múltiples indicaciones recién propuesta, logramos una generación de panoramas 10 veces más rápida que las soluciones existentes, y una velocidad de generación de 1.57 FPS en la síntesis de texto a imagen basada en regiones en una sola GPU RTX 2080 Ti. Nuestra solución abre un nuevo paradigma para la generación interactiva de imágenes llamado paleta semántica, donde se generan imágenes de alta calidad en tiempo real a partir de múltiples regiones dibujadas a mano, codificando significados semánticos prescritos (por ejemplo, águila, chica). Nuestro código y aplicación de demostración están disponibles en https://github.com/ironjr/StreamMultiDiffusion.
English
The enormous success of diffusion models in text-to-image synthesis has made
them promising candidates for the next generation of end-user applications for
image generation and editing. Previous works have focused on improving the
usability of diffusion models by reducing the inference time or increasing user
interactivity by allowing new, fine-grained controls such as region-based text
prompts. However, we empirically find that integrating both branches of works
is nontrivial, limiting the potential of diffusion models. To solve this
incompatibility, we present StreamMultiDiffusion, the first real-time
region-based text-to-image generation framework. By stabilizing fast inference
techniques and restructuring the model into a newly proposed multi-prompt
stream batch architecture, we achieve times 10 faster panorama generation
than existing solutions, and the generation speed of 1.57 FPS in region-based
text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a
new paradigm for interactive image generation named semantic palette, where
high-quality images are generated in real-time from given multiple hand-drawn
regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code
and demo application are available at
https://github.com/ironjr/StreamMultiDiffusion.Summary
AI-Generated Summary