MRT: Маскированный региональный трансформер для послойной генерации и редактирования изображений в масштабе

Аннотация

Многослойная генерация и редактирование изображений — это фундаментальная возможность, обеспечивающая послойное повторное использование, редактирование и композицию сгенерированного визуального контента, по аналогии с редактированием на уровне слов в естественном языке. Несмотря на свою важность, эта область остается малоизученной в крупномасштабном контексте. Для решения этой проблемы мы представляем MRT — диффузионную модель с маскировкой областей на 20 миллиардов параметров, предназначенную для многослойной генерации и редактирования прозрачных изображений. Модель обучена на более чем 10 миллионах многоязычных дизайнерских образцов, охватывающих различные соотношения сторон и текстовые подсказки. Чтобы полностью использовать этот масштаб, мы делаем два ключевых технических вклада. Во-первых, мы объединяем три взаимодополняющие задачи: «текст в слои», «изображение в слои» и «слои в слои» — в рамках единой диффузионной схемы с маскировкой областей, где выборочное маскирование токенов обеспечивает гибкую послойную генерацию и редактирование. Во-вторых, для генерации слоев, выходящих за границы, мы вводим осведомленный о переполнении слой-холст, который обрабатывает граничные несоответствия и поддерживает синтез полупрозрачного фона, обеспечивая создание полностью редактируемых слоев, выходящих за видимые границы холста. Кроме того, мы применяем диффузионную дистилляцию для достижения 8-шаговой многослойной генерации в реальном времени с минимальной потерей качества. Обширные эксперименты показывают, что наша структура значительно превосходит предыдущие современные подходы, включая различные коммерческие системы, по всем трем задачам, устанавливая новый эталон для многослойной генерации прозрачных изображений. Примечательно, что наша модель значительно превосходит параллельно разработанную модель Qwen-Image-Layered по качеству преобразования изображения в слои, согласно результатам пользовательских исследований, обеспечивая при этом в 10–100 раз более быстрый вывод и снижая потребление активационной памяти GPU на 50–90% во время вывода задачи «изображение в слои».

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.