ChatPaper.aiChatPaper

Break-A-Scene: Extraktion mehrerer Konzepte aus einem einzelnen Bild

Break-A-Scene: Extracting Multiple Concepts from a Single Image

May 25, 2023
Autoren: Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI

Zusammenfassung

Text-to-Image-Modell-Personalisierung zielt darauf ab, ein benutzerdefiniertes Konzept in das Modell einzuführen, um dessen Synthese in verschiedenen Kontexten zu ermöglichen. Aktuelle Methoden konzentrieren sich jedoch hauptsächlich auf den Fall, bei dem ein einzelnes Konzept aus mehreren Bildern mit Variationen in Hintergründen und Posen gelernt wird, und stoßen auf Schwierigkeiten, wenn sie auf ein anderes Szenario angewendet werden. In dieser Arbeit führen wir die Aufgabe der textuellen Szenenzerlegung ein: Gegeben ein einzelnes Bild einer Szene, das mehrere Konzepte enthalten kann, streben wir an, für jedes Konzept einen separaten Text-Token zu extrahieren, um eine feinkörnige Kontrolle über die generierten Szenen zu ermöglichen. Zu diesem Zweck schlagen wir vor, das Eingabebild mit Masken zu erweitern, die das Vorhandensein von Zielkonzepten anzeigen. Diese Masken können vom Benutzer bereitgestellt oder automatisch von einem vortrainierten Segmentierungsmodell generiert werden. Anschließend präsentieren wir einen neuartigen zweiphasigen Anpassungsprozess, der eine Reihe dedizierter textueller Einbettungen (Handles) sowie die Modellgewichte optimiert, um ein empfindliches Gleichgewicht zwischen der präzisen Erfassung der Konzepte und der Vermeidung von Überanpassung zu erreichen. Wir verwenden einen maskierten Diffusionsverlust, um Handles zu ermöglichen, ihre zugewiesenen Konzepte zu generieren, ergänzt durch einen neuartigen Verlust auf Cross-Attention-Maps, um Verflechtungen zu verhindern. Zudem führen wir Union-Sampling ein, eine Trainingsstrategie, die darauf abzielt, die Fähigkeit zur Kombination mehrerer Konzepte in generierten Bildern zu verbessern. Wir verwenden mehrere automatische Metriken, um unsere Methode quantitativ mit verschiedenen Baselines zu vergleichen, und bestätigen die Ergebnisse weiterhin durch eine Benutzerstudie. Schließlich präsentieren wir mehrere Anwendungen unserer Methode. Die Projektseite ist verfügbar unter: https://omriavrahami.com/break-a-scene/
English
Text-to-image model personalization aims to introduce a user-provided concept to the model, allowing its synthesis in diverse contexts. However, current methods primarily focus on the case of learning a single concept from multiple images with variations in backgrounds and poses, and struggle when adapted to a different scenario. In this work, we introduce the task of textual scene decomposition: given a single image of a scene that may contain several concepts, we aim to extract a distinct text token for each concept, enabling fine-grained control over the generated scenes. To this end, we propose augmenting the input image with masks that indicate the presence of target concepts. These masks can be provided by the user or generated automatically by a pre-trained segmentation model. We then present a novel two-phase customization process that optimizes a set of dedicated textual embeddings (handles), as well as the model weights, striking a delicate balance between accurately capturing the concepts and avoiding overfitting. We employ a masked diffusion loss to enable handles to generate their assigned concepts, complemented by a novel loss on cross-attention maps to prevent entanglement. We also introduce union-sampling, a training strategy aimed to improve the ability of combining multiple concepts in generated images. We use several automatic metrics to quantitatively compare our method against several baselines, and further affirm the results using a user study. Finally, we showcase several applications of our method. Project page is available at: https://omriavrahami.com/break-a-scene/
PDF70December 15, 2024