LoRAShop: Generazione e Modifica di Immagini Multi-Concetto Senza Addestramento con Trasformatori a Flusso Rettificato
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
May 29, 2025
Autori: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI
Abstract
Introduciamo LoRAShop, il primo framework per l'editing di immagini multi-concetto con modelli LoRA. LoRAShop si basa su un'osservazione chiave riguardante i modelli di interazione delle feature all'interno dei transformer di tipo Flux per la diffusione: le feature specifiche per ciascun concetto attivano regioni spazialmente coerenti nelle prime fasi del processo di denoising. Sfruttiamo questa osservazione per derivare una maschera latente separata per ogni concetto in un passaggio forward preliminare e fondiamo i pesi LoRA corrispondenti solo all'interno delle regioni che delimitano i concetti da personalizzare. Le modifiche risultanti integrano perfettamente più soggetti o stili nella scena originale, preservando il contesto globale, l'illuminazione e i dettagli fini. I nostri esperimenti dimostrano che LoRAShop offre una migliore conservazione dell'identità rispetto ai metodi di riferimento. Eliminando la necessità di riaddestramento e vincoli esterni, LoRAShop trasforma i modelli di diffusione personalizzati in uno strumento pratico di "photoshop-con-LoRA" e apre nuove strade per la narrazione visiva compositiva e l'iterazione creativa rapida.
English
We introduce LoRAShop, the first framework for multi-concept image editing
with LoRA models. LoRAShop builds on a key observation about the feature
interaction patterns inside Flux-style diffusion transformers: concept-specific
transformer features activate spatially coherent regions early in the denoising
process. We harness this observation to derive a disentangled latent mask for
each concept in a prior forward pass and blend the corresponding LoRA weights
only within regions bounding the concepts to be personalized. The resulting
edits seamlessly integrate multiple subjects or styles into the original scene
while preserving global context, lighting, and fine details. Our experiments
demonstrate that LoRAShop delivers better identity preservation compared to
baselines. By eliminating retraining and external constraints, LoRAShop turns
personalized diffusion models into a practical `photoshop-with-LoRAs' tool and
opens new avenues for compositional visual storytelling and rapid creative
iteration.