3DIS-FLUX: eenvoudige en efficiënte generatie van meerdere instanties met DiT-rendering
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Auteurs: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Samenvatting
De groeiende vraag naar controleerbare uitvoer in tekst-naar-afbeelding generatie heeft geleid tot aanzienlijke vooruitgang in multi-instantie generatie (MIG), waardoor gebruikers zowel instantie-indelingen als attributen kunnen definiëren. Momenteel zijn de toonaangevende methoden in MIG voornamelijk op adapters gebaseerd. Deze methoden vereisen echter het opnieuw trainen van een nieuwe adapter telkens wanneer er een geavanceerder model wordt uitgebracht, wat resulteert in aanzienlijk gebruik van middelen. Een methodologie genaamd Diepte-Gestuurde Ontkoppelde Instantie Synthese (3DIS) is geïntroduceerd, die MIG opsplitst in twee afzonderlijke fasen: 1) diepte-gebaseerde scèneconstructie en 2) detailweergave met wijdverspreide vooraf getrainde diepte controle modellen. De 3DIS methode vereist alleen adapter training tijdens de scèneconstructiefase, terwijl verschillende modellen training-vrije detailweergave kunnen uitvoeren. Aanvankelijk richtte 3DIS zich op render technieken met behulp van U-Net architecturen zoals SD1.5, SD2 en SDXL, zonder de potentie van recente DiT-gebaseerde modellen zoals FLUX te verkennen. In dit artikel presenteren we 3DIS-FLUX, een uitbreiding van het 3DIS framework dat het FLUX model integreert voor verbeterde rendermogelijkheden. Specifiek maken we gebruik van het FLUX.1-Depth-dev model voor dieptekaart gecontroleerde beeldgeneratie en introduceren we een detailweergave die de Aandachtsmasker in FLUX's Gezamenlijke Aandachtsmechanisme manipuleert op basis van lay-outinformatie. Deze benadering maakt een nauwkeurige weergave van fijnkorrelige attributen van elke instantie mogelijk. Onze experimentele resultaten geven aan dat 3DIS-FLUX, met behulp van het FLUX model, beter presteert dan de oorspronkelijke 3DIS methode, die SD2 en SDXL gebruikte, en de huidige toonaangevende adapter-gebaseerde methoden overtreft op het gebied van zowel prestaties als beeldkwaliteit. Projectpagina: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary