FluxSpace: Entwirrte semantische Bearbeitung in rektifizierten Fluss-Transformatoren
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
December 12, 2024
Autoren: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI
Zusammenfassung
Rektifizierte Flussmodelle haben sich als dominanter Ansatz in der Bildgenerierung etabliert und zeigen beeindruckende Fähigkeiten in der Synthese hochwertiger Bilder. Trotz ihrer Effektivität bei der visuellen Generierung haben rektifizierte Flussmodelle oft Schwierigkeiten mit der entwirrten Bearbeitung von Bildern. Diese Einschränkung verhindert die Möglichkeit, präzise, attributspezifische Modifikationen vorzunehmen, ohne nicht zusammenhängende Aspekte des Bildes zu beeinflussen. In diesem Papier stellen wir FluxSpace vor, eine domänenagnostische Bildbearbeitungsmethode, die einen Repräsentationsraum nutzt, um die Semantik von Bildern zu steuern, die von rektifizierten Flusstransformatoren wie Flux generiert werden. Durch die Nutzung der von den Transformerblöcken in den rektifizierten Flussmodellen gelernten Repräsentationen schlagen wir eine Reihe semantisch interpretierbarer Repräsentationen vor, die eine Vielzahl von Bildbearbeitungsaufgaben ermöglichen, von feinkörniger Bildbearbeitung bis zur künstlerischen Schöpfung. Diese Arbeit bietet einen skalierbaren und effektiven Ansatz zur Bildbearbeitung sowie dessen Entwirrungsfähigkeiten.
English
Rectified flow models have emerged as a dominant approach in image
generation, showcasing impressive capabilities in high-quality image synthesis.
However, despite their effectiveness in visual generation, rectified flow
models often struggle with disentangled editing of images. This limitation
prevents the ability to perform precise, attribute-specific modifications
without affecting unrelated aspects of the image. In this paper, we introduce
FluxSpace, a domain-agnostic image editing method leveraging a representation
space with the ability to control the semantics of images generated by
rectified flow transformers, such as Flux. By leveraging the representations
learned by the transformer blocks within the rectified flow models, we propose
a set of semantically interpretable representations that enable a wide range of
image editing tasks, from fine-grained image editing to artistic creation. This
work offers a scalable and effective image editing approach, along with its
disentanglement capabilities.Summary
AI-Generated Summary