MRT: Transformador de Región Enmascarada para Generación y Edición de Imágenes en Capas a Gran Escala

Resumen

La generación y edición de imágenes en capas es una capacidad fundamental que permite la reutilización, edición y composición de contenido visual generado a nivel de capas, de forma análoga a la edición a nivel de palabras en el lenguaje natural. A pesar de su importancia, sigue siendo un área poco explorada a gran escala. Para abordar esta brecha, presentamos MRT, un modelo de difusión de región enmascarada de 20 mil millones de parámetros diseñado para la generación y edición de imágenes transparentes multicapa, entrenado con más de 10 millones de muestras de diseño multilingüe que abarcan diversas relaciones de aspecto y descripciones textuales. Para aprovechar plenamente esta escala, realizamos dos contribuciones técnicas clave. En primer lugar, unificamos tres tareas complementarias (texto a capas, imagen a capas y capas a capas) dentro de un marco compartido de difusión de región enmascarada, donde el enmascaramiento selectivo de tokens permite la generación y edición flexible por capas. En segundo lugar, para permitir la generación de capas de desbordamiento, introducimos una capa de lienzo consciente del desbordamiento que maneja las inconsistencias de los límites y admite la síntesis de fondos semitransparentes, lo que permite la creación de capas editables completas que se extienden más allá de los límites visibles del lienzo. Además, aplicamos destilación de difusión para lograr una generación multicapa en 8 pasos y en tiempo real con una degradación mínima de la calidad. Experimentos exhaustivos demuestran que nuestro marco supera sustancialmente a los enfoques de última generación anteriores, incluidos varios sistemas comerciales, en las tres tareas, estableciendo un nuevo punto de referencia para la generación de imágenes transparentes multicapa. En particular, según los resultados de estudios de usuarios, nuestro modelo supera significativamente al modelo concurrente Qwen-Image-Layered en la calidad de imagen a capas, logrando al mismo tiempo una inferencia de 10 a 100 veces más rápida y reduciendo el consumo de memoria GPU de activación entre un 50 y un 90 % durante la inferencia de imagen a capas.

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.