LoRAShop : Génération et édition d'images multi-concepts sans entraînement avec des transformateurs à flux rectifié
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
May 29, 2025
Auteurs: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI
Résumé
Nous présentons LoRAShop, le premier cadre pour l'édition d'images multi-concepts avec des modèles LoRA. LoRAShop s'appuie sur une observation clé concernant les schémas d'interaction des caractéristiques dans les transformeurs de diffusion de style Flux : les caractéristiques spécifiques aux concepts des transformeurs activent des régions spatialement cohérentes tôt dans le processus de débruitage. Nous exploitons cette observation pour dériver un masque latent désentrelacé pour chaque concept lors d'une passe avant préalable et mélanger les poids LoRA correspondants uniquement dans les régions englobant les concepts à personnaliser. Les modifications résultantes intègrent de manière fluide plusieurs sujets ou styles dans la scène originale tout en préservant le contexte global, l'éclairage et les détails fins. Nos expériences montrent que LoRAShop offre une meilleure préservation de l'identité par rapport aux méthodes de référence. En éliminant le réentraînement et les contraintes externes, LoRAShop transforme les modèles de diffusion personnalisés en un outil pratique de « photoshop-avec-LoRAs » et ouvre de nouvelles perspectives pour la narration visuelle compositionnelle et l'itération créative rapide.
English
We introduce LoRAShop, the first framework for multi-concept image editing
with LoRA models. LoRAShop builds on a key observation about the feature
interaction patterns inside Flux-style diffusion transformers: concept-specific
transformer features activate spatially coherent regions early in the denoising
process. We harness this observation to derive a disentangled latent mask for
each concept in a prior forward pass and blend the corresponding LoRA weights
only within regions bounding the concepts to be personalized. The resulting
edits seamlessly integrate multiple subjects or styles into the original scene
while preserving global context, lighting, and fine details. Our experiments
demonstrate that LoRAShop delivers better identity preservation compared to
baselines. By eliminating retraining and external constraints, LoRAShop turns
personalized diffusion models into a practical `photoshop-with-LoRAs' tool and
opens new avenues for compositional visual storytelling and rapid creative
iteration.Summary
AI-Generated Summary