Text2Layer: Geração de Imagens em Camadas usando Modelo de Difusão Latente

Resumo

A composição de camadas é um dos fluxos de trabalho mais populares na edição de imagens, tanto entre amadores quanto profissionais. Motivados pelo sucesso dos modelos de difusão, exploramos a composição de camadas a partir de uma perspectiva de geração de imagens em camadas. Em vez de gerar uma única imagem, propomos gerar simultaneamente o fundo, o primeiro plano, a máscara de camada e a imagem composta. Para alcançar a geração de imagens em camadas, treinamos um autoencoder capaz de reconstruir imagens em camadas e treinamos modelos de difusão na representação latente. Um dos benefícios da proposta é permitir fluxos de trabalho de composição mais eficientes, além de gerar imagens de alta qualidade. Outro benefício é a produção de máscaras de camada de qualidade superior em comparação com as máscaras geradas por uma etapa separada de segmentação de imagem. Os resultados experimentais mostram que o método proposto é capaz de gerar imagens em camadas de alta qualidade e estabelece um benchmark para trabalhos futuros.

English

Layer compositing is one of the most popular image editing workflows among both amateurs and professionals. Motivated by the success of diffusion models, we explore layer compositing from a layered image generation perspective. Instead of generating an image, we propose to generate background, foreground, layer mask, and the composed image simultaneously. To achieve layered image generation, we train an autoencoder that is able to reconstruct layered images and train diffusion models on the latent representation. One benefit of the proposed problem is to enable better compositing workflows in addition to the high-quality image output. Another benefit is producing higher-quality layer masks compared to masks produced by a separate step of image segmentation. Experimental results show that the proposed method is able to generate high-quality layered images and initiates a benchmark for future work.

Text2Layer: Geração de Imagens em Camadas usando Modelo de Difusão Latente

Text2Layer: Layered Image Generation using Latent Diffusion Model

Resumo

Support