ChatPaper.aiChatPaper

FluxSpace: 正規化フロー変換器における分離された意味編集

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
著者: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

要旨

修正フローモデルは、画像生成において支配的なアプローチとして台頭し、高品質な画像合成における印象的な能力を示しています。しかしながら、視覚生成において効果的であるにもかかわらず、修正フローモデルはしばしば画像の分離された編集に苦労します。この制限により、画像の関連性のない側面に影響を与えることなく、正確な属性固有の修正を行う能力が妨げられます。本論文では、FluxSpaceという、Fluxなどの修正フロートランスフォーマーによって生成された画像の意味を制御する能力を持つドメインに依存しない画像編集手法を紹介します。修正フローモデル内のトランスフォーマーブロックによって学習された表現を活用することで、幅広い画像編集タスク、細かい画像編集から芸術的創造まで可能にする、意味的に解釈可能な表現のセットを提案します。この研究は、拡張可能で効果的な画像編集手法を提供し、その分離能力も含まれています。
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.

Summary

AI-Generated Summary

PDF102December 16, 2024