ChatPaper.aiChatPaper

LoRAShop: Generación y Edición de Imágenes Multi-Concepto sin Entrenamiento con Transformadores de Flujo Rectificado

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29, 2025
Autores: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI

Resumen

Presentamos LoRAShop, el primer marco de trabajo para la edición de imágenes con múltiples conceptos utilizando modelos LoRA. LoRAShop se basa en una observación clave sobre los patrones de interacción de características dentro de los transformadores de difusión de estilo Flux: las características específicas de cada concepto en los transformadores activan regiones espacialmente coherentes en las primeras etapas del proceso de eliminación de ruido. Aprovechamos esta observación para derivar una máscara latente desenredada para cada concepto en un pase hacia adelante previo y mezclar los pesos LoRA correspondientes solo dentro de las regiones que delimitan los conceptos a personalizar. Las ediciones resultantes integran de manera fluida múltiples sujetos o estilos en la escena original mientras preservan el contexto global, la iluminación y los detalles finos. Nuestros experimentos demuestran que LoRAShop ofrece una mejor preservación de la identidad en comparación con los métodos base. Al eliminar la necesidad de reentrenamiento y restricciones externas, LoRAShop convierte a los modelos de difusión personalizados en una herramienta práctica de "photoshop-con-LoRAs" y abre nuevas vías para la narrativa visual composicional y la iteración creativa rápida.
English
We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.

Summary

AI-Generated Summary

PDF233May 30, 2025