Text2Layer: Generación de Imágenes en Capas utilizando un Modelo de Difusión Latente

Resumen

La composición por capas es uno de los flujos de trabajo de edición de imágenes más populares tanto entre aficionados como profesionales. Motivados por el éxito de los modelos de difusión, exploramos la composición por capas desde una perspectiva de generación de imágenes en capas. En lugar de generar una imagen, proponemos generar simultáneamente el fondo, el primer plano, la máscara de capa y la imagen compuesta. Para lograr la generación de imágenes en capas, entrenamos un autoencoder capaz de reconstruir imágenes en capas y entrenamos modelos de difusión sobre la representación latente. Un beneficio del problema propuesto es permitir mejores flujos de trabajo de composición, además de obtener imágenes de alta calidad. Otro beneficio es la producción de máscaras de capa de mayor calidad en comparación con las máscaras generadas en un paso separado de segmentación de imágenes. Los resultados experimentales muestran que el método propuesto es capaz de generar imágenes en capas de alta calidad y establece un punto de referencia para trabajos futuros.

English

Layer compositing is one of the most popular image editing workflows among both amateurs and professionals. Motivated by the success of diffusion models, we explore layer compositing from a layered image generation perspective. Instead of generating an image, we propose to generate background, foreground, layer mask, and the composed image simultaneously. To achieve layered image generation, we train an autoencoder that is able to reconstruct layered images and train diffusion models on the latent representation. One benefit of the proposed problem is to enable better compositing workflows in addition to the high-quality image output. Another benefit is producing higher-quality layer masks compared to masks produced by a separate step of image segmentation. Experimental results show that the proposed method is able to generate high-quality layered images and initiates a benchmark for future work.

Text2Layer: Generación de Imágenes en Capas utilizando un Modelo de Difusión Latente

Text2Layer: Layered Image Generation using Latent Diffusion Model

Resumen

Support