ChatPaper.aiChatPaper

FluxSpace : Édition sémantique désenchevêtrée dans les transformateurs de flux rectifiés

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
Auteurs: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

Résumé

Les modèles de flux rectifiés se sont imposés comme une approche dominante en matière de génération d'images, mettant en avant des capacités impressionnantes dans la synthèse d'images de haute qualité. Cependant, malgré leur efficacité en matière de génération visuelle, les modèles de flux rectifiés ont souvent du mal avec l'édition désentrelacée d'images. Cette limitation empêche la capacité d'effectuer des modifications précises et spécifiques aux attributs sans affecter les aspects non liés de l'image. Dans cet article, nous présentons FluxSpace, une méthode d'édition d'images agnostique au domaine exploitant un espace de représentation avec la capacité de contrôler la sémantique des images générées par les transformateurs de flux rectifiés, tels que Flux. En exploitant les représentations apprises par les blocs transformateurs au sein des modèles de flux rectifiés, nous proposons un ensemble de représentations sémantiquement interprétables qui permettent une large gamme de tâches d'édition d'images, de l'édition d'images détaillée à la création artistique. Ce travail offre une approche d'édition d'images évolutive et efficace, ainsi que ses capacités de désentrelacement.
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.

Summary

AI-Generated Summary

PDF102December 16, 2024