Text2Layer: Geração de Imagens em Camadas usando Modelo de Difusão Latente
Text2Layer: Layered Image Generation using Latent Diffusion Model
July 19, 2023
Autores: Xinyang Zhang, Wentian Zhao, Xin Lu, Jeff Chien
cs.AI
Resumo
A composição de camadas é um dos fluxos de trabalho mais populares na edição de imagens, tanto entre amadores quanto profissionais. Motivados pelo sucesso dos modelos de difusão, exploramos a composição de camadas a partir de uma perspectiva de geração de imagens em camadas. Em vez de gerar uma única imagem, propomos gerar simultaneamente o fundo, o primeiro plano, a máscara de camada e a imagem composta. Para alcançar a geração de imagens em camadas, treinamos um autoencoder capaz de reconstruir imagens em camadas e treinamos modelos de difusão na representação latente. Um dos benefícios da proposta é permitir fluxos de trabalho de composição mais eficientes, além de gerar imagens de alta qualidade. Outro benefício é a produção de máscaras de camada de qualidade superior em comparação com as máscaras geradas por uma etapa separada de segmentação de imagem. Os resultados experimentais mostram que o método proposto é capaz de gerar imagens em camadas de alta qualidade e estabelece um benchmark para trabalhos futuros.
English
Layer compositing is one of the most popular image editing workflows among
both amateurs and professionals. Motivated by the success of diffusion models,
we explore layer compositing from a layered image generation perspective.
Instead of generating an image, we propose to generate background, foreground,
layer mask, and the composed image simultaneously. To achieve layered image
generation, we train an autoencoder that is able to reconstruct layered images
and train diffusion models on the latent representation. One benefit of the
proposed problem is to enable better compositing workflows in addition to the
high-quality image output. Another benefit is producing higher-quality layer
masks compared to masks produced by a separate step of image segmentation.
Experimental results show that the proposed method is able to generate
high-quality layered images and initiates a benchmark for future work.