ART: Transformador de Região Anônima para Geração de Imagens Transparentes de Múltiplas Camadas Variáveis

Resumo

A geração de imagens multicamadas é uma tarefa fundamental que permite aos usuários isolar, selecionar e editar camadas específicas de imagens, revolucionando assim as interações com modelos generativos. Neste artigo, apresentamos o Anonymous Region Transformer (ART), que facilita a geração direta de imagens transparentes multicamadas variáveis com base em um prompt de texto global e um layout de regiões anônimas. Inspirado pela Teoria dos Esquemas, que sugere que o conhecimento é organizado em estruturas (esquemas) que permitem às pessoas interpretar e aprender novas informações vinculando-as a conhecimentos prévios, esse layout de regiões anônimas permite que o modelo generativo determine autonomamente qual conjunto de tokens visuais deve se alinhar com quais tokens de texto, em contraste com o layout semântico previamente dominante para a tarefa de geração de imagens. Além disso, o mecanismo de recorte de regiões por camada, que seleciona apenas os tokens visuais pertencentes a cada região anônima, reduz significativamente os custos de computação de atenção e possibilita a geração eficiente de imagens com numerosas camadas distintas (por exemplo, 50+). Em comparação com a abordagem de atenção completa, nosso método é mais de 12 vezes mais rápido e exibe menos conflitos entre camadas. Adicionalmente, propomos um autoencoder de alta qualidade para imagens transparentes multicamadas que suporta a codificação e decodificação direta da transparência de imagens multicamadas variáveis de forma conjunta. Ao permitir controle preciso e geração escalável de camadas, o ART estabelece um novo paradigma para a criação interativa de conteúdo.

English

Multi-layer image generation is a fundamental task that enables users to isolate, select, and edit specific image layers, thereby revolutionizing interactions with generative models. In this paper, we introduce the Anonymous Region Transformer (ART), which facilitates the direct generation of variable multi-layer transparent images based on a global text prompt and an anonymous region layout. Inspired by Schema theory suggests that knowledge is organized in frameworks (schemas) that enable people to interpret and learn from new information by linking it to prior knowledge.}, this anonymous region layout allows the generative model to autonomously determine which set of visual tokens should align with which text tokens, which is in contrast to the previously dominant semantic layout for the image generation task. In addition, the layer-wise region crop mechanism, which only selects the visual tokens belonging to each anonymous region, significantly reduces attention computation costs and enables the efficient generation of images with numerous distinct layers (e.g., 50+). When compared to the full attention approach, our method is over 12 times faster and exhibits fewer layer conflicts. Furthermore, we propose a high-quality multi-layer transparent image autoencoder that supports the direct encoding and decoding of the transparency of variable multi-layer images in a joint manner. By enabling precise control and scalable layer generation, ART establishes a new paradigm for interactive content creation.

ART: Transformador de Região Anônima para Geração de Imagens Transparentes de Múltiplas Camadas Variáveis

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

Resumo

Support