ChatPaper.aiChatPaper

3DIS-FLUX: generación simple y eficiente de múltiples instancias con renderizado DiT

3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

January 9, 2025
Autores: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI

Resumen

La creciente demanda de salidas controlables en la generación de texto a imagen ha impulsado avances significativos en la generación de múltiples instancias (GMI), permitiendo a los usuarios definir tanto la disposición de las instancias como los atributos. Actualmente, los métodos de vanguardia en GMI son principalmente basados en adaptadores. Sin embargo, estos métodos requieren el reentrenamiento de un nuevo adaptador cada vez que se lanza un modelo más avanzado, lo que resulta en un consumo significativo de recursos. Se ha introducido una metodología llamada Síntesis de Instancias Desacoplada Impulsada por Profundidad (3DIS), que desacopla GMI en dos fases distintas: 1) construcción de escenas basada en profundidad y 2) renderizado de detalles con modelos de control de profundidad ampliamente pre-entrenados. El método 3DIS requiere el entrenamiento del adaptador únicamente durante la fase de construcción de escenas, al tiempo que permite que varios modelos realicen el renderizado de detalles sin necesidad de entrenamiento. Inicialmente, 3DIS se centró en técnicas de renderizado utilizando arquitecturas U-Net como SD1.5, SD2 y SDXL, sin explorar el potencial de modelos recientes basados en DiT como FLUX. En este documento, presentamos 3DIS-FLUX, una extensión del marco 3DIS que integra el modelo FLUX para capacidades de renderizado mejoradas. Específicamente, empleamos el modelo FLUX.1-Depth-dev para la generación de imágenes controladas por mapas de profundidad e introducimos un renderizador de detalles que manipula la Máscara de Atención en el mecanismo de Atención Conjunta de FLUX basándose en información de disposición. Este enfoque permite el renderizado preciso de atributos detallados de cada instancia. Nuestros resultados experimentales indican que 3DIS-FLUX, aprovechando el modelo FLUX, supera al método original 3DIS, que utilizaba SD2 y SDXL, y supera a los métodos de vanguardia basados en adaptadores en términos de rendimiento y calidad de imagen. Página del Proyecto: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has driven significant advancements in multi-instance generation (MIG), enabling users to define both instance layouts and attributes. Currently, the state-of-the-art methods in MIG are primarily adapter-based. However, these methods necessitate retraining a new adapter each time a more advanced model is released, resulting in significant resource consumption. A methodology named Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which decouples MIG into two distinct phases: 1) depth-based scene construction and 2) detail rendering with widely pre-trained depth control models. The 3DIS method requires adapter training solely during the scene construction phase, while enabling various models to perform training-free detail rendering. Initially, 3DIS focused on rendering techniques utilizing U-Net architectures such as SD1.5, SD2, and SDXL, without exploring the potential of recent DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension of the 3DIS framework that integrates the FLUX model for enhanced rendering capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map controlled image generation and introduce a detail renderer that manipulates the Attention Mask in FLUX's Joint Attention mechanism based on layout information. This approach allows for the precise rendering of fine-grained attributes of each instance. Our experimental results indicate that 3DIS-FLUX, leveraging the FLUX model, outperforms the original 3DIS method, which utilized SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in terms of both performance and image quality. Project Page: https://limuloo.github.io/3DIS/.

Summary

AI-Generated Summary

PDF372January 15, 2025