LoRAShop: Бестренировочная генерация и редактирование изображений с несколькими концепциями с использованием трансформеров с исправленным потоком
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
May 29, 2025
Авторы: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
cs.AI
Аннотация
Мы представляем LoRAShop — первую платформу для редактирования изображений с использованием нескольких концепций на основе моделей LoRA. LoRAShop основывается на ключевом наблюдении о паттернах взаимодействия признаков внутри трансформеров диффузии в стиле Flux: признаки трансформеров, специфичные для концепций, активируют пространственно согласованные области на ранних этапах процесса удаления шума. Мы используем это наблюдение для получения разъединённой латентной маски для каждой концепции в предварительном прямом проходе и смешиваем соответствующие веса LoRA только в областях, ограничивающих концепции, которые необходимо персонализировать. Полученные правки бесшовно интегрируют несколько объектов или стилей в исходную сцену, сохраняя глобальный контекст, освещение и мелкие детали. Наши эксперименты показывают, что LoRAShop обеспечивает лучшее сохранение идентичности по сравнению с базовыми методами. Устраняя необходимость в повторном обучении и внешних ограничениях, LoRAShop превращает персонализированные модели диффузии в практичный инструмент «фотошоп с LoRA» и открывает новые возможности для композиционного визуального повествования и быстрой творческой итерации.
English
We introduce LoRAShop, the first framework for multi-concept image editing
with LoRA models. LoRAShop builds on a key observation about the feature
interaction patterns inside Flux-style diffusion transformers: concept-specific
transformer features activate spatially coherent regions early in the denoising
process. We harness this observation to derive a disentangled latent mask for
each concept in a prior forward pass and blend the corresponding LoRA weights
only within regions bounding the concepts to be personalized. The resulting
edits seamlessly integrate multiple subjects or styles into the original scene
while preserving global context, lighting, and fine details. Our experiments
demonstrate that LoRAShop delivers better identity preservation compared to
baselines. By eliminating retraining and external constraints, LoRAShop turns
personalized diffusion models into a practical `photoshop-with-LoRAs' tool and
opens new avenues for compositional visual storytelling and rapid creative
iteration.Summary
AI-Generated Summary