ChatPaper.aiChatPaper

LoRAShop: Geração e Edição de Imagens Multi-Conceito sem Treinamento com Transformadores de Fluxo Retificado

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29, 2025
Autores: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI

Resumo

Apresentamos o LoRAShop, o primeiro framework para edição de imagens com múltiplos conceitos utilizando modelos LoRA. O LoRAShop se baseia em uma observação crucial sobre os padrões de interação de recursos dentro de transformadores de difusão no estilo Flux: os recursos específicos de cada conceito ativam regiões espacialmente coerentes no início do processo de remoção de ruído. Aproveitamos essa observação para derivar uma máscara latente desacoplada para cada conceito em uma passagem direta preliminar e combinamos os pesos LoRA correspondentes apenas nas regiões que delimitam os conceitos a serem personalizados. As edições resultantes integram perfeitamente múltiplos sujeitos ou estilos na cena original, preservando o contexto global, a iluminação e os detalhes finos. Nossos experimentos demonstram que o LoRAShop oferece uma melhor preservação de identidade em comparação com as abordagens de referência. Ao eliminar a necessidade de retreinamento e restrições externas, o LoRAShop transforma modelos de difusão personalizados em uma ferramenta prática de "photoshop-com-LoRAs" e abre novas possibilidades para narrativas visuais composicionais e iteração criativa rápida.
English
We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.
PDF223December 11, 2025