LoRAShop: Generación y Edición de Imágenes Multi-Concepto sin Entrenamiento con Transformadores de Flujo Rectificado
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
May 29, 2025
Autores: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI
Resumen
Presentamos LoRAShop, el primer marco de trabajo para la edición de imágenes con múltiples conceptos utilizando modelos LoRA. LoRAShop se basa en una observación clave sobre los patrones de interacción de características dentro de los transformadores de difusión de estilo Flux: las características específicas de cada concepto en los transformadores activan regiones espacialmente coherentes en las primeras etapas del proceso de eliminación de ruido. Aprovechamos esta observación para derivar una máscara latente desenredada para cada concepto en un pase hacia adelante previo y mezclar los pesos LoRA correspondientes solo dentro de las regiones que delimitan los conceptos a personalizar. Las ediciones resultantes integran de manera fluida múltiples sujetos o estilos en la escena original mientras preservan el contexto global, la iluminación y los detalles finos. Nuestros experimentos demuestran que LoRAShop ofrece una mejor preservación de la identidad en comparación con los métodos base. Al eliminar la necesidad de reentrenamiento y restricciones externas, LoRAShop convierte a los modelos de difusión personalizados en una herramienta práctica de "photoshop-con-LoRAs" y abre nuevas vías para la narrativa visual composicional y la iteración creativa rápida.
English
We introduce LoRAShop, the first framework for multi-concept image editing
with LoRA models. LoRAShop builds on a key observation about the feature
interaction patterns inside Flux-style diffusion transformers: concept-specific
transformer features activate spatially coherent regions early in the denoising
process. We harness this observation to derive a disentangled latent mask for
each concept in a prior forward pass and blend the corresponding LoRA weights
only within regions bounding the concepts to be personalized. The resulting
edits seamlessly integrate multiple subjects or styles into the original scene
while preserving global context, lighting, and fine details. Our experiments
demonstrate that LoRAShop delivers better identity preservation compared to
baselines. By eliminating retraining and external constraints, LoRAShop turns
personalized diffusion models into a practical `photoshop-with-LoRAs' tool and
opens new avenues for compositional visual storytelling and rapid creative
iteration.Summary
AI-Generated Summary