ChatPaper.aiChatPaper

FluxSpace: Entwirrte semantische Bearbeitung in rektifizierten Fluss-Transformatoren

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
Autoren: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

Zusammenfassung

Rektifizierte Flussmodelle haben sich als dominanter Ansatz in der Bildgenerierung etabliert und zeigen beeindruckende Fähigkeiten in der Synthese hochwertiger Bilder. Trotz ihrer Effektivität bei der visuellen Generierung haben rektifizierte Flussmodelle oft Schwierigkeiten mit der entwirrten Bearbeitung von Bildern. Diese Einschränkung verhindert die Möglichkeit, präzise, attributspezifische Modifikationen vorzunehmen, ohne nicht zusammenhängende Aspekte des Bildes zu beeinflussen. In diesem Papier stellen wir FluxSpace vor, eine domänenagnostische Bildbearbeitungsmethode, die einen Repräsentationsraum nutzt, um die Semantik von Bildern zu steuern, die von rektifizierten Flusstransformatoren wie Flux generiert werden. Durch die Nutzung der von den Transformerblöcken in den rektifizierten Flussmodellen gelernten Repräsentationen schlagen wir eine Reihe semantisch interpretierbarer Repräsentationen vor, die eine Vielzahl von Bildbearbeitungsaufgaben ermöglichen, von feinkörniger Bildbearbeitung bis zur künstlerischen Schöpfung. Diese Arbeit bietet einen skalierbaren und effektiven Ansatz zur Bildbearbeitung sowie dessen Entwirrungsfähigkeiten.
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.

Summary

AI-Generated Summary

PDF102December 16, 2024