ChatPaper.aiChatPaper

FluxSpace: Разъединенное семантическое редактирование в преобразователях потоковой трансформации.

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
Авторы: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

Аннотация

Модели потока с исправлением стали доминирующим подходом в генерации изображений, продемонстрировав впечатляющие возможности в синтезе изображений высокого качества. Однако, несмотря на их эффективность в визуальной генерации, модели потока с исправлением часто сталкиваются с проблемами в разделении редактирования изображений. Это ограничение мешает выполнять точные, атрибутивно-специфичные модификации без влияния на несвязанные аспекты изображения. В данной работе мы представляем FluxSpace, метод редактирования изображений, не зависящий от домена, использующий пространство представлений с возможностью управления семантикой изображений, созданных трансформаторами потока с исправлением, такими как Flux. Используя представления, изученные блоками трансформаторов в моделях потока с исправлением, мы предлагаем набор семантически интерпретируемых представлений, позволяющих широкий спектр задач по редактированию изображений, от тонкой настройки изображений до художественного творчества. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности разделения.
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.

Summary

AI-Generated Summary

PDF102December 16, 2024