3DIS-FLUX : génération simple et efficace de multiples instances avec rendu DiT.
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Auteurs: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Résumé
La demande croissante de sorties contrôlables dans la génération de texte vers image a conduit à des avancées significatives dans la génération multi-instance (GMI), permettant aux utilisateurs de définir à la fois les mises en page des instances et les attributs. Actuellement, les méthodes de pointe en GMI sont principalement basées sur des adaptateurs. Cependant, ces méthodes nécessitent de ré-entraîner un nouvel adaptateur à chaque fois qu'un modèle plus avancé est publié, entraînant une consommation significative de ressources. Une méthodologie nommée Synthèse d'Instances Découplées Pilotée par la Profondeur (3DIS) a été introduite, qui découple la GMI en deux phases distinctes : 1) construction de scène basée sur la profondeur et 2) rendu de détails avec des modèles de contrôle de profondeur largement pré-entraînés. La méthode 3DIS nécessite l'entraînement de l'adaptateur uniquement pendant la phase de construction de scène, tout en permettant à divers modèles d'effectuer un rendu de détails sans entraînement. Initialement, 3DIS se concentrait sur des techniques de rendu utilisant des architectures U-Net telles que SD1.5, SD2 et SDXL, sans explorer le potentiel des modèles récents basés sur DiT comme FLUX. Dans cet article, nous présentons 3DIS-FLUX, une extension du cadre 3DIS qui intègre le modèle FLUX pour des capacités de rendu améliorées. Plus précisément, nous utilisons le modèle FLUX.1-Depth-dev pour la génération d'images contrôlée par carte de profondeur et introduisons un rendu de détails qui manipule le Masque d'Attention dans le mécanisme d'Attention Conjoints de FLUX en fonction des informations de mise en page. Cette approche permet le rendu précis des attributs fins de chaque instance. Nos résultats expérimentaux indiquent que 3DIS-FLUX, en tirant parti du modèle FLUX, surpasse la méthode originale 3DIS, qui utilisait SD2 et SDXL, et dépasse les méthodes de pointe basées sur des adaptateurs actuelles en termes de performances et de qualité d'image. Page du projet : https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary