Compass Control: Mehrfachobjekt-Orientierungssteuerung für die Text-zu-Bild-Generierung
Compass Control: Multi Object Orientation Control for Text-to-Image Generation
April 9, 2025
Autoren: Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu
cs.AI
Zusammenfassung
Bestehende Ansätze zur Steuerung von Text-zu-Bild-Diffusionsmodellen, obwohl leistungsstark, ermöglichen keine explizite 3D-objektzentrierte Kontrolle, wie beispielsweise die präzise Steuerung der Objektausrichtung. In dieser Arbeit behandeln wir das Problem der Multi-Objekt-Orientierungskontrolle in Text-zu-Bild-Diffusionsmodellen. Dies ermöglicht die Erzeugung vielfältiger Multi-Objekt-Szenen mit präziser Orientierungskontrolle für jedes Objekt. Die zentrale Idee besteht darin, das Diffusionsmodell mit einer Reihe von orientierungsbewussten Kompass-Tokens, eines für jedes Objekt, zusammen mit Text-Tokens zu konditionieren. Ein leichtgewichtiges Encoder-Netzwerk sagt diese Kompass-Tokens voraus, wobei die Objektausrichtung als Eingabe dient. Das Modell wird auf einem synthetischen Datensatz von prozedural generierten Szenen trainiert, die jeweils ein oder zwei 3D-Assets auf einem einfachen Hintergrund enthalten. Direktes Training dieses Frameworks führt jedoch zu schlechter Orientierungskontrolle sowie zu Verflechtungen zwischen den Objekten. Um dies zu mildern, greifen wir in den Generierungsprozess ein und beschränken die Cross-Attention-Maps jedes Kompass-Tokens auf die entsprechenden Objektregionen. Das trainierte Modell ist in der Lage, präzise Orientierungskontrolle für a) komplexe Objekte, die während des Trainings nicht gesehen wurden, und b) Multi-Objekt-Szenen mit mehr als zwei Objekten zu erreichen, was auf starke Generalisierungsfähigkeiten hinweist. Darüber hinaus ermöglicht unsere Methode in Kombination mit Personalisierungsmethoden die präzise Steuerung der Ausrichtung des neuen Objekts in verschiedenen Kontexten. Unsere Methode erreicht state-of-the-art Orientierungskontrolle und Textausrichtung, quantifiziert durch umfangreiche Evaluierungen und eine Benutzerstudie.
English
Existing approaches for controlling text-to-image diffusion models, while
powerful, do not allow for explicit 3D object-centric control, such as precise
control of object orientation. In this work, we address the problem of
multi-object orientation control in text-to-image diffusion models. This
enables the generation of diverse multi-object scenes with precise orientation
control for each object. The key idea is to condition the diffusion model with
a set of orientation-aware compass tokens, one for each object, along
with text tokens. A light-weight encoder network predicts these compass tokens
taking object orientation as the input. The model is trained on a synthetic
dataset of procedurally generated scenes, each containing one or two 3D assets
on a plain background. However, direct training this framework results in poor
orientation control as well as leads to entanglement among objects. To mitigate
this, we intervene in the generation process and constrain the cross-attention
maps of each compass token to its corresponding object regions. The trained
model is able to achieve precise orientation control for a) complex objects not
seen during training and b) multi-object scenes with more than two objects,
indicating strong generalization capabilities. Further, when combined with
personalization methods, our method precisely controls the orientation of the
new object in diverse contexts. Our method achieves state-of-the-art
orientation control and text alignment, quantified with extensive evaluations
and a user study.Summary
AI-Generated Summary