MRT: Gemaskeerde regio-transformer voor gelaagde beeldgeneratie en -bewerking op grote schaal

Samenvatting

Gelaagde beeldgeneratie en -bewerking is een fundamentele vaardigheid die laagsgewijs hergebruik, bewerking en compositie van gegenereerde visuele inhoud mogelijk maakt, analoog aan bewerking op woordniveau in natuurlijke taal. Ondanks het belang ervan blijft dit op grote schaal een onderbelicht gebied. Om deze leemte aan te vullen, presenteren we MRT, een diffusiemodel met gemaskeerde regio's van 20 miljard parameters, specifiek ontworpen voor het genereren en bewerken van meerlaagse transparante afbeeldingen, getraind op meer dan 10 miljoen meertalige ontwerpvoorbeelden met uiteenlopende beeldverhoudingen en tekstuele prompts. Om deze schaal volledig te benutten, leveren we twee belangrijke technische bijdragen. Ten eerste verenigen we drie complementaire taken, namelijk tekst-naar-lagen, beeld-naar-lagen en lagen-naar-lagen, binnen een gedeeld raamwerk van diffusie met gemaskeerde regio's, waarbij selectieve tokenmaskering flexibele laagsgewijze generatie en bewerking mogelijk maakt. Ten tweede introduceren we, om overlooplaaggeneratie mogelijk te maken, een overloopbewuste canvallaag die omgaat met randinconsistenties en semi-transparante achtergrondsynthese ondersteunt, waardoor volledig bewerkbare lagen mogelijk worden die zich uitstrekken voorbij de zichtbare canvasgrenzen. Daarnaast passen we diffusiedestillatie toe om 8-staps, real-time meerlaagse generatie te bereiken met minimale kwaliteitsvermindering. Uitgebreide experimenten tonen aan dat ons raamwerk aanzienlijk beter presteert dan eerdere state-of-the-art benaderingen, waaronder verschillende commerciële systemen, voor alle drie de taken, waarmee een nieuwe benchmark wordt gevestigd voor meerlaagse transparante beeldgeneratie. Opvallend is dat ons model volgens gebruikersstudieresultaten aanzienlijk beter scoort dan het gelijktijdige Qwen-Image-Layered-model qua beeld-naar-lagen kwaliteit, terwijl het 10-100× snellere inferentie realiseert en het GPU-geheugengebruik voor activeringen tijdens beeld-naar-laag inferentie met 50-90% vermindert.

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.