ChatPaper.aiChatPaper

LoRAShop : Génération et édition d'images multi-concepts sans entraînement avec des transformateurs à flux rectifié

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29, 2025
Auteurs: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI

Résumé

Nous présentons LoRAShop, le premier cadre pour l'édition d'images multi-concepts avec des modèles LoRA. LoRAShop s'appuie sur une observation clé concernant les schémas d'interaction des caractéristiques dans les transformeurs de diffusion de style Flux : les caractéristiques spécifiques aux concepts des transformeurs activent des régions spatialement cohérentes tôt dans le processus de débruitage. Nous exploitons cette observation pour dériver un masque latent désentrelacé pour chaque concept lors d'une passe avant préalable et mélanger les poids LoRA correspondants uniquement dans les régions englobant les concepts à personnaliser. Les modifications résultantes intègrent de manière fluide plusieurs sujets ou styles dans la scène originale tout en préservant le contexte global, l'éclairage et les détails fins. Nos expériences montrent que LoRAShop offre une meilleure préservation de l'identité par rapport aux méthodes de référence. En éliminant le réentraînement et les contraintes externes, LoRAShop transforme les modèles de diffusion personnalisés en un outil pratique de « photoshop-avec-LoRAs » et ouvre de nouvelles perspectives pour la narration visuelle compositionnelle et l'itération créative rapide.
English
We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.

Summary

AI-Generated Summary

PDF233May 30, 2025