LoRAShop: Trainingsfreie Multi-Konzept-Bildgenerierung und -bearbeitung mit Rectified Flow Transformern
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
May 29, 2025
Autoren: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI
Zusammenfassung
Wir stellen LoRAShop vor, das erste Framework für die Bearbeitung von Bildern mit mehreren Konzepten mithilfe von LoRA-Modellen. LoRAShop basiert auf einer zentralen Beobachtung über die Merkmalsinteraktionsmuster innerhalb von Flux-ähnlichen Diffusionstransformern: Konzeptspezifische Transformer-Merkmale aktivieren früh im Denoising-Prozess räumlich kohärente Regionen. Wir nutzen diese Beobachtung, um in einem vorherigen Vorwärtsdurchlauf eine entkoppelte latente Maske für jedes Konzept abzuleiten und die entsprechenden LoRA-Gewichte nur innerhalb der Regionen zu mischen, die die zu personalisierenden Konzepte begrenzen. Die resultierenden Bearbeitungen integrieren mehrere Subjekte oder Stile nahtlos in die ursprüngliche Szene, während der globale Kontext, die Beleuchtung und feine Details erhalten bleiben. Unsere Experimente zeigen, dass LoRAShop im Vergleich zu Baseline-Methoden eine bessere Identitätsbewahrung bietet. Durch den Verzicht auf Neutraining und externe Einschränkungen verwandelt LoRAShop personalisierte Diffusionsmodelle in ein praktisches „Photoshop-mit-LoRAs“-Werkzeug und eröffnet neue Wege für kompositionelle visuelle Geschichtenerzählung und schnelle kreative Iteration.
English
We introduce LoRAShop, the first framework for multi-concept image editing
with LoRA models. LoRAShop builds on a key observation about the feature
interaction patterns inside Flux-style diffusion transformers: concept-specific
transformer features activate spatially coherent regions early in the denoising
process. We harness this observation to derive a disentangled latent mask for
each concept in a prior forward pass and blend the corresponding LoRA weights
only within regions bounding the concepts to be personalized. The resulting
edits seamlessly integrate multiple subjects or styles into the original scene
while preserving global context, lighting, and fine details. Our experiments
demonstrate that LoRAShop delivers better identity preservation compared to
baselines. By eliminating retraining and external constraints, LoRAShop turns
personalized diffusion models into a practical `photoshop-with-LoRAs' tool and
opens new avenues for compositional visual storytelling and rapid creative
iteration.Summary
AI-Generated Summary