MRT : Transformateur de Région Masquée pour la Génération et l'Édition d'Images en Couches à Grande Échelle

Résumé

La génération et l'édition d’images en couches constituent une capacité fondamentale permettant la réutilisation, l’édition et la composition par couches de contenu visuel généré, de manière analogue à l’édition au niveau du mot en langage naturel. Malgré son importance, ce domaine reste peu exploré à grande échelle. Pour combler cette lacune, nous présentons MRT, un modèle de diffusion par régions masquées de 20 milliards de paramètres, conçu pour la génération et l’édition d’images transparentes multicouches, entraîné sur plus de 10 millions d’échantillons de conception multilingues couvrant divers rapports d’aspect et invites textuelles. Afin de tirer pleinement parti de cette échelle, nous apportons deux contributions techniques clés. Premièrement, nous unifions trois tâches complémentaires – texte-vers-couches, image-vers-couches et couches-vers-couches – au sein d’un cadre partagé de diffusion par régions masquées, où le masquage sélectif des tokens permet une génération et une édition flexibles par couche. Deuxièmement, pour permettre la génération de couches de débordement, nous introduisons une couche de canevas tenant compte du débordement, qui gère les incohérences de bordure et prend en charge la synthèse d’arrière-plans semi-transparents, permettant ainsi d’obtenir des couches entièrement modifiables s’étendant au-delà des limites visibles du canevas. De plus, nous appliquons une distillation de diffusion pour atteindre une génération multicouche en 8 étapes, en temps réel, avec une dégradation minimale de la qualité. Des expériences approfondies montrent que notre cadre surpasse largement les approches antérieures de l’état de l’art, y compris divers systèmes commerciaux, dans les trois tâches, établissant ainsi une nouvelle référence pour la génération d’images transparentes multicouches. Notamment, selon les résultats d’une étude utilisateur, notre modèle dépasse significativement le modèle concurrent Qwen-Image-Layered en termes de qualité image-vers-couches, tout en offrant une inférence 10 à 100 fois plus rapide et en réduisant de 50 à 90 % la consommation de mémoire GPU d’activation lors de l’inférence image-vers-couches.

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.