3DIS-FLUX : génération simple et efficace de multiples instances avec rendu DiT.

papers.abstract

La demande croissante de sorties contrôlables dans la génération de texte vers image a conduit à des avancées significatives dans la génération multi-instance (GMI), permettant aux utilisateurs de définir à la fois les mises en page des instances et les attributs. Actuellement, les méthodes de pointe en GMI sont principalement basées sur des adaptateurs. Cependant, ces méthodes nécessitent de ré-entraîner un nouvel adaptateur à chaque fois qu'un modèle plus avancé est publié, entraînant une consommation significative de ressources. Une méthodologie nommée Synthèse d'Instances Découplées Pilotée par la Profondeur (3DIS) a été introduite, qui découple la GMI en deux phases distinctes : 1) construction de scène basée sur la profondeur et 2) rendu de détails avec des modèles de contrôle de profondeur largement pré-entraînés. La méthode 3DIS nécessite l'entraînement de l'adaptateur uniquement pendant la phase de construction de scène, tout en permettant à divers modèles d'effectuer un rendu de détails sans entraînement. Initialement, 3DIS se concentrait sur des techniques de rendu utilisant des architectures U-Net telles que SD1.5, SD2 et SDXL, sans explorer le potentiel des modèles récents basés sur DiT comme FLUX. Dans cet article, nous présentons 3DIS-FLUX, une extension du cadre 3DIS qui intègre le modèle FLUX pour des capacités de rendu améliorées. Plus précisément, nous utilisons le modèle FLUX.1-Depth-dev pour la génération d'images contrôlée par carte de profondeur et introduisons un rendu de détails qui manipule le Masque d'Attention dans le mécanisme d'Attention Conjoints de FLUX en fonction des informations de mise en page. Cette approche permet le rendu précis des attributs fins de chaque instance. Nos résultats expérimentaux indiquent que 3DIS-FLUX, en tirant parti du modèle FLUX, surpasse la méthode originale 3DIS, qui utilisait SD2 et SDXL, et dépasse les méthodes de pointe basées sur des adaptateurs actuelles en termes de performances et de qualité d'image. Page du projet : https://limuloo.github.io/3DIS/.

English

The growing demand for controllable outputs in text-to-image generation has driven significant advancements in multi-instance generation (MIG), enabling users to define both instance layouts and attributes. Currently, the state-of-the-art methods in MIG are primarily adapter-based. However, these methods necessitate retraining a new adapter each time a more advanced model is released, resulting in significant resource consumption. A methodology named Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which decouples MIG into two distinct phases: 1) depth-based scene construction and 2) detail rendering with widely pre-trained depth control models. The 3DIS method requires adapter training solely during the scene construction phase, while enabling various models to perform training-free detail rendering. Initially, 3DIS focused on rendering techniques utilizing U-Net architectures such as SD1.5, SD2, and SDXL, without exploring the potential of recent DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension of the 3DIS framework that integrates the FLUX model for enhanced rendering capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map controlled image generation and introduce a detail renderer that manipulates the Attention Mask in FLUX's Joint Attention mechanism based on layout information. This approach allows for the precise rendering of fine-grained attributes of each instance. Our experimental results indicate that 3DIS-FLUX, leveraging the FLUX model, outperforms the original 3DIS method, which utilized SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in terms of both performance and image quality. Project Page: https://limuloo.github.io/3DIS/.

3DIS-FLUX : génération simple et efficace de multiples instances avec rendu DiT.

3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

papers.abstract

Support