ChatPaper.aiChatPaper

FluxSpace: Ontwarde Semantische Bewerking in Gecorrigeerde Stroomtransformatoren

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
Auteurs: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

Samenvatting

Rectified flow-modellen zijn naar voren gekomen als een dominante benadering in beeldgeneratie, waarbij indrukwekkende mogelijkheden worden getoond in hoogwaardige beeldsynthese. Echter, ondanks hun effectiviteit in visuele generatie, hebben rectified flow-modellen vaak moeite met het ontrafelen van bewerkingen van afbeeldingen. Deze beperking voorkomt de mogelijkheid om nauwkeurige, attribuutspecifieke wijzigingen uit te voeren zonder ongerelateerde aspecten van de afbeelding te beïnvloeden. In dit artikel introduceren we FluxSpace, een domeinagnostische beeldbewerkingsmethode die gebruikmaakt van een representatieruimte met de mogelijkheid om de semantiek van afbeeldingen die zijn gegenereerd door rectified flow-transformators, zoals Flux, te beheersen. Door gebruik te maken van de representaties die zijn geleerd door de transformatorblokken binnen de rectified flow-modellen, stellen we een reeks semantisch interpreteerbare representaties voor die een breed scala aan beeldbewerkingstaken mogelijk maken, van fijnmazige beeldbewerking tot artistieke creatie. Dit werk biedt een schaalbare en effectieve benadering van beeldbewerking, samen met zijn vermogen tot ontrafeling.
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.
PDF102December 16, 2024