MRT: Maskierter Regionen-Transformer zur schichtweisen Bildgenerierung und -bearbeitung im großen Maßstab

Zusammenfassung

Schichtbildgenerierung und -bearbeitung ist eine grundlegende Fähigkeit, die die schichtweise Wiederverwendung, Bearbeitung und Komposition generierter visueller Inhalte ermöglicht – analog zur Wortebenenbearbeitung in natürlicher Sprache. Trotz ihrer Bedeutung bleibt dies in großem Maßstab ein wenig erforschtes Gebiet. Um diese Lücke zu schließen, präsentieren wir MRT, ein 20 Milliarden Parameter umfassendes maskiertes Regionsdiffusionsmodell, das speziell für die Generierung und Bearbeitung mehrschichtiger transparenter Bilder konzipiert wurde und auf über 10 Millionen mehrsprachigen Design-Stichproben mit unterschiedlichen Seitenverhältnissen und Textaufforderungen trainiert wurde. Um diesen Maßstab voll auszuschöpfen, leisten wir zwei wesentliche technische Beiträge. Erstens vereinheitlichen wir drei komplementäre Aufgaben – Text-zu-Schichten, Bild-zu-Schichten und Schichten-zu-Schichten – innerhalb eines gemeinsamen maskierten Regionsdiffusionsrahmens, bei dem selektives Token-Masking eine flexible schichtweise Generierung und Bearbeitung ermöglicht. Zweitens führen wir zur Ermöglichung der Überlaufschichterzeugung eine überlaufbewusste Leinwandschicht ein, die Randunregelmäßigkeiten behandelt und die Synthese halbtransparenter Hintergründe unterstützt, wodurch vollständig bearbeitbare Schichten entstehen, die über die sichtbaren Leinwandgrenzen hinausragen. Darüber hinaus wenden wir Diffusionsdestillation an, um eine 8-schrittige, echtzeitfähige Mehrschichtgenerierung mit minimalem Qualitätsverlust zu erreichen. Umfangreiche Experimente zeigen, dass unser Framework die bisherigen Spitzenverfahren, einschließlich verschiedener kommerzieller Systeme, in allen drei Aufgaben deutlich übertrifft und einen neuen Maßstab für die mehrschichtige transparente Bildgenerierung setzt. Bemerkenswerterweise übertrifft unser Modell das zeitgleich veröffentlichte Qwen-Image-Layered-Modell in der Bild-zu-Schichten-Qualität laut Nutzerstudien deutlich, erreicht eine 10- bis 100-mal schnellere Inferenz und reduziert den GPU-Aktivierungsspeicherverbrauch während der Bild-zu-Schichten-Inferenz um 50–90 %.

English

Layered image generation and editing is a fundamental capability that enables layer-wise reuse, editing, and composition of generated visual content, analogous to word-level editing in natural language. Despite its importance, this remains an underexplored area at scale. To address this gap, we present MRT, a 20B-parameter masked region diffusion model tailored for multi-layer transparent image generation and editing, trained on over 10M multilingual design samples spanning diverse aspect ratios and textual prompts. To fully leverage this scale, we make two key technical contributions. First, we unify three complementary tasks including text-to-layers, image-to-layers, and layers-to-layers within a shared masked region diffusion framework, where selective token masking enables flexible layer-wise generation and editing. Second, to enable overflow layer generation, we introduce an overflow-aware canvas layer that handles boundary inconsistencies and supports semi-transparent background synthesis, enabling complete editable layers extending beyond visible canvas boundaries. Additionally, we apply diffusion distillation to achieve 8-step, real-time multi-layer generation with minimal quality degradation. Extensive experiments demonstrate that our framework substantially outperforms prior state-of-the-art approaches, including various commercial systems, across all three tasks, establishing a new benchmark for multi-layer transparent image generation. Notably, our model significantly outperforms the concurrent Qwen-Image-Layered model in image-to-layers quality according to user-study results, while achieving 10-100\times faster inference and reducing activation GPU memory consumption by 50-90\% during image-to-layer inference.