ChatPaper.aiChatPaper

LoRAShop: Trainingsfreie Multi-Konzept-Bildgenerierung und -bearbeitung mit Rectified Flow Transformern

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29, 2025
Autoren: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI

Zusammenfassung

Wir stellen LoRAShop vor, das erste Framework für die Bearbeitung von Bildern mit mehreren Konzepten mithilfe von LoRA-Modellen. LoRAShop basiert auf einer zentralen Beobachtung über die Merkmalsinteraktionsmuster innerhalb von Flux-ähnlichen Diffusionstransformern: Konzeptspezifische Transformer-Merkmale aktivieren früh im Denoising-Prozess räumlich kohärente Regionen. Wir nutzen diese Beobachtung, um in einem vorherigen Vorwärtsdurchlauf eine entkoppelte latente Maske für jedes Konzept abzuleiten und die entsprechenden LoRA-Gewichte nur innerhalb der Regionen zu mischen, die die zu personalisierenden Konzepte begrenzen. Die resultierenden Bearbeitungen integrieren mehrere Subjekte oder Stile nahtlos in die ursprüngliche Szene, während der globale Kontext, die Beleuchtung und feine Details erhalten bleiben. Unsere Experimente zeigen, dass LoRAShop im Vergleich zu Baseline-Methoden eine bessere Identitätsbewahrung bietet. Durch den Verzicht auf Neutraining und externe Einschränkungen verwandelt LoRAShop personalisierte Diffusionsmodelle in ein praktisches „Photoshop-mit-LoRAs“-Werkzeug und eröffnet neue Wege für kompositionelle visuelle Geschichtenerzählung und schnelle kreative Iteration.
English
We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.

Summary

AI-Generated Summary

PDF233May 30, 2025