ChatPaper.aiChatPaper

LIME: Lokalisierte Bildbearbeitung durch Aufmerksamkeitsregularisierung in Diffusionsmodellen

LIME: Localized Image Editing via Attention Regularization in Diffusion Models

December 14, 2023
Autoren: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Zusammenfassung

Diffusionsmodelle (DMs) haben aufgrund ihrer Fähigkeit, hochwertige und vielfältige Bilder zu erzeugen, insbesondere durch jüngste Fortschritte in der Text-zu-Bild-Generierung, an Bedeutung gewonnen. Der Forschungsschwerpunkt verlagert sich nun auf die Steuerbarkeit von DMs. Eine wesentliche Herausforderung in diesem Bereich ist die lokalisierte Bearbeitung, bei der spezifische Bereiche eines Bildes verändert werden, ohne den restlichen Inhalt zu beeinflussen. Dieses Paper stellt LIME für die lokalisierte Bildbearbeitung in Diffusionsmodellen vor, das keine benutzerdefinierten Regionen von Interesse (RoI) oder zusätzliche Texteingaben erfordert. Unser Verfahren nutzt Merkmale aus vortrainierten Methoden und eine einfache Clustering-Technik, um präzise semantische Segmentierungskarten zu erstellen. Anschließend werden diese Segmente mithilfe von Cross-Attention-Karten für lokalisierte Bearbeitungen verfeinert. Schließlich schlagen wir eine neuartige Cross-Attention-Regularisierungstechnik vor, die während der Denoising-Schritte unzusammenhängende Cross-Attention-Werte in der RoI bestraft und so lokalisierte Bearbeitungen sicherstellt. Unser Ansatz verbessert ohne erneutes Training und Feinabstimmung die Leistung bestehender Methoden in verschiedenen Bearbeitungsbenchmarks konsistent.
English
Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.
PDF124December 15, 2024