FluxSpace: Edición Semántica Desentrañada en Transformadores de Flujo Rectificado
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
December 12, 2024
Autores: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI
Resumen
Los modelos de flujo rectificado han surgido como un enfoque dominante en la generación de imágenes, mostrando impresionantes capacidades en la síntesis de imágenes de alta calidad. Sin embargo, a pesar de su efectividad en la generación visual, los modelos de flujo rectificado a menudo tienen dificultades con la edición desentrelazada de imágenes. Esta limitación impide la capacidad de realizar modificaciones precisas y específicas de atributos sin afectar aspectos no relacionados de la imagen. En este documento, presentamos FluxSpace, un método de edición de imágenes agnóstico al dominio que aprovecha un espacio de representación con la capacidad de controlar la semántica de las imágenes generadas por transformadores de flujo rectificado, como Flux. Al aprovechar las representaciones aprendidas por los bloques transformadores dentro de los modelos de flujo rectificado, proponemos un conjunto de representaciones semánticamente interpretables que permiten una amplia gama de tareas de edición de imágenes, desde la edición de imágenes detallada hasta la creación artística. Este trabajo ofrece un enfoque escalable y efectivo para la edición de imágenes, junto con sus capacidades de desentrelazado.
English
Rectified flow models have emerged as a dominant approach in image
generation, showcasing impressive capabilities in high-quality image synthesis.
However, despite their effectiveness in visual generation, rectified flow
models often struggle with disentangled editing of images. This limitation
prevents the ability to perform precise, attribute-specific modifications
without affecting unrelated aspects of the image. In this paper, we introduce
FluxSpace, a domain-agnostic image editing method leveraging a representation
space with the ability to control the semantics of images generated by
rectified flow transformers, such as Flux. By leveraging the representations
learned by the transformer blocks within the rectified flow models, we propose
a set of semantically interpretable representations that enable a wide range of
image editing tasks, from fine-grained image editing to artistic creation. This
work offers a scalable and effective image editing approach, along with its
disentanglement capabilities.Summary
AI-Generated Summary