Compass Control: Mehrfachobjekt-Orientierungssteuerung für die Text-zu-Bild-Generierung

papers.abstract

Bestehende Ansätze zur Steuerung von Text-zu-Bild-Diffusionsmodellen, obwohl leistungsstark, ermöglichen keine explizite 3D-objektzentrierte Kontrolle, wie beispielsweise die präzise Steuerung der Objektausrichtung. In dieser Arbeit behandeln wir das Problem der Multi-Objekt-Orientierungskontrolle in Text-zu-Bild-Diffusionsmodellen. Dies ermöglicht die Erzeugung vielfältiger Multi-Objekt-Szenen mit präziser Orientierungskontrolle für jedes Objekt. Die zentrale Idee besteht darin, das Diffusionsmodell mit einer Reihe von orientierungsbewussten Kompass-Tokens, eines für jedes Objekt, zusammen mit Text-Tokens zu konditionieren. Ein leichtgewichtiges Encoder-Netzwerk sagt diese Kompass-Tokens voraus, wobei die Objektausrichtung als Eingabe dient. Das Modell wird auf einem synthetischen Datensatz von prozedural generierten Szenen trainiert, die jeweils ein oder zwei 3D-Assets auf einem einfachen Hintergrund enthalten. Direktes Training dieses Frameworks führt jedoch zu schlechter Orientierungskontrolle sowie zu Verflechtungen zwischen den Objekten. Um dies zu mildern, greifen wir in den Generierungsprozess ein und beschränken die Cross-Attention-Maps jedes Kompass-Tokens auf die entsprechenden Objektregionen. Das trainierte Modell ist in der Lage, präzise Orientierungskontrolle für a) komplexe Objekte, die während des Trainings nicht gesehen wurden, und b) Multi-Objekt-Szenen mit mehr als zwei Objekten zu erreichen, was auf starke Generalisierungsfähigkeiten hinweist. Darüber hinaus ermöglicht unsere Methode in Kombination mit Personalisierungsmethoden die präzise Steuerung der Ausrichtung des neuen Objekts in verschiedenen Kontexten. Unsere Methode erreicht state-of-the-art Orientierungskontrolle und Textausrichtung, quantifiziert durch umfangreiche Evaluierungen und eine Benutzerstudie.

English

Existing approaches for controlling text-to-image diffusion models, while powerful, do not allow for explicit 3D object-centric control, such as precise control of object orientation. In this work, we address the problem of multi-object orientation control in text-to-image diffusion models. This enables the generation of diverse multi-object scenes with precise orientation control for each object. The key idea is to condition the diffusion model with a set of orientation-aware compass tokens, one for each object, along with text tokens. A light-weight encoder network predicts these compass tokens taking object orientation as the input. The model is trained on a synthetic dataset of procedurally generated scenes, each containing one or two 3D assets on a plain background. However, direct training this framework results in poor orientation control as well as leads to entanglement among objects. To mitigate this, we intervene in the generation process and constrain the cross-attention maps of each compass token to its corresponding object regions. The trained model is able to achieve precise orientation control for a) complex objects not seen during training and b) multi-object scenes with more than two objects, indicating strong generalization capabilities. Further, when combined with personalization methods, our method precisely controls the orientation of the new object in diverse contexts. Our method achieves state-of-the-art orientation control and text alignment, quantified with extensive evaluations and a user study.

Compass Control: Mehrfachobjekt-Orientierungssteuerung für die Text-zu-Bild-Generierung

Compass Control: Multi Object Orientation Control for Text-to-Image Generation

papers.abstract

Support