ChatPaper.aiChatPaper

FluxSpace: Edição Semântica Desembaraçada em Transformadores de Fluxo Retificado

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

December 12, 2024
Autores: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI

Resumo

Os modelos de fluxo retificado surgiram como uma abordagem dominante na geração de imagens, exibindo capacidades impressionantes na síntese de imagens de alta qualidade. No entanto, apesar de sua eficácia na geração visual, os modelos de fluxo retificado frequentemente enfrentam dificuldades com a edição desentrelaçada de imagens. Essa limitação impede a capacidade de realizar modificações precisas e específicas de atributos sem afetar aspectos não relacionados da imagem. Neste artigo, apresentamos o FluxSpace, um método de edição de imagens independente de domínio que aproveita um espaço de representação com a capacidade de controlar a semântica de imagens geradas por transformadores de fluxo retificado, como o Flux. Ao aproveitar as representações aprendidas pelos blocos do transformador nos modelos de fluxo retificado, propomos um conjunto de representações semanticamente interpretáveis que possibilitam uma ampla gama de tarefas de edição de imagens, desde a edição de imagens detalhadas até a criação artística. Este trabalho oferece uma abordagem escalável e eficaz para edição de imagens, juntamente com suas capacidades de desentrelaçamento.
English
Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentangled editing of images. This limitation prevents the ability to perform precise, attribute-specific modifications without affecting unrelated aspects of the image. In this paper, we introduce FluxSpace, a domain-agnostic image editing method leveraging a representation space with the ability to control the semantics of images generated by rectified flow transformers, such as Flux. By leveraging the representations learned by the transformer blocks within the rectified flow models, we propose a set of semantically interpretable representations that enable a wide range of image editing tasks, from fine-grained image editing to artistic creation. This work offers a scalable and effective image editing approach, along with its disentanglement capabilities.

Summary

AI-Generated Summary

PDF102December 16, 2024