ART: Transformador de Região Anônima para Geração de Imagens Transparentes de Múltiplas Camadas Variáveis
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation
February 25, 2025
Autores: Yifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang, Baining Guo
cs.AI
Resumo
A geração de imagens multicamadas é uma tarefa fundamental que permite aos usuários isolar, selecionar e editar camadas específicas de imagens, revolucionando assim as interações com modelos generativos. Neste artigo, apresentamos o Anonymous Region Transformer (ART), que facilita a geração direta de imagens transparentes multicamadas variáveis com base em um prompt de texto global e um layout de regiões anônimas. Inspirado pela Teoria dos Esquemas, que sugere que o conhecimento é organizado em estruturas (esquemas) que permitem às pessoas interpretar e aprender novas informações vinculando-as a conhecimentos prévios, esse layout de regiões anônimas permite que o modelo generativo determine autonomamente qual conjunto de tokens visuais deve se alinhar com quais tokens de texto, em contraste com o layout semântico previamente dominante para a tarefa de geração de imagens. Além disso, o mecanismo de recorte de regiões por camada, que seleciona apenas os tokens visuais pertencentes a cada região anônima, reduz significativamente os custos de computação de atenção e possibilita a geração eficiente de imagens com numerosas camadas distintas (por exemplo, 50+). Em comparação com a abordagem de atenção completa, nosso método é mais de 12 vezes mais rápido e exibe menos conflitos entre camadas. Adicionalmente, propomos um autoencoder de alta qualidade para imagens transparentes multicamadas que suporta a codificação e decodificação direta da transparência de imagens multicamadas variáveis de forma conjunta. Ao permitir controle preciso e geração escalável de camadas, o ART estabelece um novo paradigma para a criação interativa de conteúdo.
English
Multi-layer image generation is a fundamental task that enables users to
isolate, select, and edit specific image layers, thereby revolutionizing
interactions with generative models. In this paper, we introduce the Anonymous
Region Transformer (ART), which facilitates the direct generation of variable
multi-layer transparent images based on a global text prompt and an anonymous
region layout. Inspired by Schema theory suggests that knowledge is organized
in frameworks (schemas) that enable people to interpret and learn from new
information by linking it to prior knowledge.}, this anonymous region layout
allows the generative model to autonomously determine which set of visual
tokens should align with which text tokens, which is in contrast to the
previously dominant semantic layout for the image generation task. In addition,
the layer-wise region crop mechanism, which only selects the visual tokens
belonging to each anonymous region, significantly reduces attention computation
costs and enables the efficient generation of images with numerous distinct
layers (e.g., 50+). When compared to the full attention approach, our method is
over 12 times faster and exhibits fewer layer conflicts. Furthermore, we
propose a high-quality multi-layer transparent image autoencoder that supports
the direct encoding and decoding of the transparency of variable multi-layer
images in a joint manner. By enabling precise control and scalable layer
generation, ART establishes a new paradigm for interactive content creation.Summary
AI-Generated Summary