MRT: Transformer de Região Mascarada para Geração e Edição de Imagens em Camadas em Grande Escala

Resumo

A geração e edição de imagens em camadas é uma capacidade fundamental que permite a reutilização, edição e composição de conteúdo visual gerado em camadas, de forma análoga à edição em nível de palavras na linguagem natural. Apesar de sua importância, essa área ainda é pouco explorada em larga escala. Para preencher essa lacuna, apresentamos o MRT, um modelo de difusão de região mascarada com 20 bilhões de parâmetros, projetado para geração e edição de imagens transparentes multicamadas, treinado em mais de 10 milhões de amostras de design multilíngue, abrangendo variadas proporções de aspecto e prompts textuais. Para aproveitar plenamente essa escala, fazemos duas contribuições técnicas principais. Primeiro, unificamos três tarefas complementares — texto para camadas, imagem para camadas e camadas para camadas — dentro de um framework compartilhado de difusão de região mascarada, onde o mascaramento seletivo de tokens permite geração e edição flexíveis em nível de camadas. Segundo, para possibilitar a geração de camadas de estouro (overflow), introduzimos uma camada de tela (canvas layer) ciente de estouro, que lida com inconsistências de borda e suporta síntese de fundo semitransparente, permitindo camadas editáveis completas que se estendem além dos limites visíveis da tela. Além disso, aplicamos destilação de difusão para alcançar geração multicamadas em tempo real com 8 passos, mantendo degradação mínima de qualidade. Experimentos extensivos demonstram que nosso framework supera significativamente abordagens anteriores de última geração, incluindo vários sistemas comerciais, em todas as três tarefas, estabelecendo um novo padrão para geração de imagens transparentes multicamadas. Notavelmente, nosso modelo supera substancialmente o modelo concorrente Qwen-Image-Layered na qualidade de imagem para camadas, de acordo com resultados de estudos de usuários, enquanto alcança inferência 10-100 vezes mais rápida e reduz o consumo de memória GPU ativa em 50-90% durante a inferência de imagem para camada.

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.