Control de Brújula: Control Multiobjetivo de Orientación para la Generación de Imágenes a partir de Texto
Compass Control: Multi Object Orientation Control for Text-to-Image Generation
April 9, 2025
Autores: Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu
cs.AI
Resumen
Los enfoques existentes para controlar los modelos de difusión de texto a imagen, aunque potentes, no permiten un control explícito centrado en objetos 3D, como el control preciso de la orientación de los objetos. En este trabajo, abordamos el problema del control de orientación de múltiples objetos en modelos de difusión de texto a imagen. Esto permite la generación de escenas diversas con múltiples objetos, donde cada uno tiene un control preciso de su orientación. La idea clave es condicionar el modelo de difusión con un conjunto de tokens de brújula conscientes de la orientación, uno para cada objeto, junto con tokens de texto. Una red codificadora ligera predice estos tokens de brújula tomando la orientación del objeto como entrada. El modelo se entrena en un conjunto de datos sintético de escenas generadas proceduralmente, cada una conteniendo uno o dos activos 3D sobre un fondo simple. Sin embargo, el entrenamiento directo de este marco resulta en un control deficiente de la orientación y en un entrelazamiento entre los objetos. Para mitigar esto, intervenimos en el proceso de generación y restringimos los mapas de atención cruzada de cada token de brújula a las regiones correspondientes de su objeto. El modelo entrenado es capaz de lograr un control preciso de la orientación para a) objetos complejos no vistos durante el entrenamiento y b) escenas con más de dos objetos, lo que indica fuertes capacidades de generalización. Además, cuando se combina con métodos de personalización, nuestro método controla con precisión la orientación del nuevo objeto en diversos contextos. Nuestro método alcanza un control de orientación y alineación de texto de vanguardia, cuantificado mediante evaluaciones exhaustivas y un estudio de usuarios.
English
Existing approaches for controlling text-to-image diffusion models, while
powerful, do not allow for explicit 3D object-centric control, such as precise
control of object orientation. In this work, we address the problem of
multi-object orientation control in text-to-image diffusion models. This
enables the generation of diverse multi-object scenes with precise orientation
control for each object. The key idea is to condition the diffusion model with
a set of orientation-aware compass tokens, one for each object, along
with text tokens. A light-weight encoder network predicts these compass tokens
taking object orientation as the input. The model is trained on a synthetic
dataset of procedurally generated scenes, each containing one or two 3D assets
on a plain background. However, direct training this framework results in poor
orientation control as well as leads to entanglement among objects. To mitigate
this, we intervene in the generation process and constrain the cross-attention
maps of each compass token to its corresponding object regions. The trained
model is able to achieve precise orientation control for a) complex objects not
seen during training and b) multi-object scenes with more than two objects,
indicating strong generalization capabilities. Further, when combined with
personalization methods, our method precisely controls the orientation of the
new object in diverse contexts. Our method achieves state-of-the-art
orientation control and text alignment, quantified with extensive evaluations
and a user study.Summary
AI-Generated Summary