Control de Brújula: Control Multiobjetivo de Orientación para la Generación de Imágenes a partir de Texto

Resumen

Los enfoques existentes para controlar los modelos de difusión de texto a imagen, aunque potentes, no permiten un control explícito centrado en objetos 3D, como el control preciso de la orientación de los objetos. En este trabajo, abordamos el problema del control de orientación de múltiples objetos en modelos de difusión de texto a imagen. Esto permite la generación de escenas diversas con múltiples objetos, donde cada uno tiene un control preciso de su orientación. La idea clave es condicionar el modelo de difusión con un conjunto de tokens de brújula conscientes de la orientación, uno para cada objeto, junto con tokens de texto. Una red codificadora ligera predice estos tokens de brújula tomando la orientación del objeto como entrada. El modelo se entrena en un conjunto de datos sintético de escenas generadas proceduralmente, cada una conteniendo uno o dos activos 3D sobre un fondo simple. Sin embargo, el entrenamiento directo de este marco resulta en un control deficiente de la orientación y en un entrelazamiento entre los objetos. Para mitigar esto, intervenimos en el proceso de generación y restringimos los mapas de atención cruzada de cada token de brújula a las regiones correspondientes de su objeto. El modelo entrenado es capaz de lograr un control preciso de la orientación para a) objetos complejos no vistos durante el entrenamiento y b) escenas con más de dos objetos, lo que indica fuertes capacidades de generalización. Además, cuando se combina con métodos de personalización, nuestro método controla con precisión la orientación del nuevo objeto en diversos contextos. Nuestro método alcanza un control de orientación y alineación de texto de vanguardia, cuantificado mediante evaluaciones exhaustivas y un estudio de usuarios.

English

Existing approaches for controlling text-to-image diffusion models, while powerful, do not allow for explicit 3D object-centric control, such as precise control of object orientation. In this work, we address the problem of multi-object orientation control in text-to-image diffusion models. This enables the generation of diverse multi-object scenes with precise orientation control for each object. The key idea is to condition the diffusion model with a set of orientation-aware compass tokens, one for each object, along with text tokens. A light-weight encoder network predicts these compass tokens taking object orientation as the input. The model is trained on a synthetic dataset of procedurally generated scenes, each containing one or two 3D assets on a plain background. However, direct training this framework results in poor orientation control as well as leads to entanglement among objects. To mitigate this, we intervene in the generation process and constrain the cross-attention maps of each compass token to its corresponding object regions. The trained model is able to achieve precise orientation control for a) complex objects not seen during training and b) multi-object scenes with more than two objects, indicating strong generalization capabilities. Further, when combined with personalization methods, our method precisely controls the orientation of the new object in diverse contexts. Our method achieves state-of-the-art orientation control and text alignment, quantified with extensive evaluations and a user study.

Control de Brújula: Control Multiobjetivo de Orientación para la Generación de Imágenes a partir de Texto

Compass Control: Multi Object Orientation Control for Text-to-Image Generation

Resumen

Support