ChatPaper.aiChatPaper

LoRAShop: Generazione e Modifica di Immagini Multi-Concetto Senza Addestramento con Trasformatori a Flusso Rettificato

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29, 2025
Autori: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI

Abstract

Introduciamo LoRAShop, il primo framework per l'editing di immagini multi-concetto con modelli LoRA. LoRAShop si basa su un'osservazione chiave riguardante i modelli di interazione delle feature all'interno dei transformer di tipo Flux per la diffusione: le feature specifiche per ciascun concetto attivano regioni spazialmente coerenti nelle prime fasi del processo di denoising. Sfruttiamo questa osservazione per derivare una maschera latente separata per ogni concetto in un passaggio forward preliminare e fondiamo i pesi LoRA corrispondenti solo all'interno delle regioni che delimitano i concetti da personalizzare. Le modifiche risultanti integrano perfettamente più soggetti o stili nella scena originale, preservando il contesto globale, l'illuminazione e i dettagli fini. I nostri esperimenti dimostrano che LoRAShop offre una migliore conservazione dell'identità rispetto ai metodi di riferimento. Eliminando la necessità di riaddestramento e vincoli esterni, LoRAShop trasforma i modelli di diffusione personalizzati in uno strumento pratico di "photoshop-con-LoRA" e apre nuove strade per la narrazione visiva compositiva e l'iterazione creativa rapida.
English
We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.
PDF233May 30, 2025