3DIS-FLUX: generación simple y eficiente de múltiples instancias con renderizado DiT
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Autores: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Resumen
La creciente demanda de salidas controlables en la generación de texto a imagen ha impulsado avances significativos en la generación de múltiples instancias (GMI), permitiendo a los usuarios definir tanto la disposición de las instancias como los atributos. Actualmente, los métodos de vanguardia en GMI son principalmente basados en adaptadores. Sin embargo, estos métodos requieren el reentrenamiento de un nuevo adaptador cada vez que se lanza un modelo más avanzado, lo que resulta en un consumo significativo de recursos. Se ha introducido una metodología llamada Síntesis de Instancias Desacoplada Impulsada por Profundidad (3DIS), que desacopla GMI en dos fases distintas: 1) construcción de escenas basada en profundidad y 2) renderizado de detalles con modelos de control de profundidad ampliamente pre-entrenados. El método 3DIS requiere el entrenamiento del adaptador únicamente durante la fase de construcción de escenas, al tiempo que permite que varios modelos realicen el renderizado de detalles sin necesidad de entrenamiento. Inicialmente, 3DIS se centró en técnicas de renderizado utilizando arquitecturas U-Net como SD1.5, SD2 y SDXL, sin explorar el potencial de modelos recientes basados en DiT como FLUX. En este documento, presentamos 3DIS-FLUX, una extensión del marco 3DIS que integra el modelo FLUX para capacidades de renderizado mejoradas. Específicamente, empleamos el modelo FLUX.1-Depth-dev para la generación de imágenes controladas por mapas de profundidad e introducimos un renderizador de detalles que manipula la Máscara de Atención en el mecanismo de Atención Conjunta de FLUX basándose en información de disposición. Este enfoque permite el renderizado preciso de atributos detallados de cada instancia. Nuestros resultados experimentales indican que 3DIS-FLUX, aprovechando el modelo FLUX, supera al método original 3DIS, que utilizaba SD2 y SDXL, y supera a los métodos de vanguardia basados en adaptadores en términos de rendimiento y calidad de imagen. Página del Proyecto: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary