ChatPaper.aiChatPaper

SAEdit : Contrôle au niveau des tokens pour l'édition continue d'images via un AutoEncodeur Sparse

SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

October 6, 2025
papers.authors: Ronen Kamenetsky, Sara Dorfman, Daniel Garibi, Roni Paiss, Or Patashnik, Daniel Cohen-Or
cs.AI

papers.abstract

Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte sont devenus la pierre angulaire de l'édition d'images moderne. Cependant, les invites textuelles seules n'offrent pas un contrôle adéquat sur le processus d'édition. Deux propriétés sont particulièrement souhaitables : la désentrelacement, où la modification d'un attribut n'altère pas involontairement les autres, et le contrôle continu, où l'intensité d'une modification peut être ajustée de manière fluide. Nous introduisons une méthode pour l'édition désentrelacée et continue via la manipulation au niveau des tokens des embeddings textuels. Les modifications sont appliquées en manipulant les embeddings le long de directions soigneusement choisies, qui contrôlent l'intensité de l'attribut cible. Pour identifier ces directions, nous utilisons un Autoencodeur Sparse (SAE), dont l'espace latent sparse expose des dimensions sémantiquement isolées. Notre méthode opère directement sur les embeddings textuels sans modifier le processus de diffusion, la rendant agnostique au modèle et largement applicable à diverses architectures de synthèse d'images. Les expériences montrent qu'elle permet des manipulations intuitives et efficaces avec un contrôle continu sur divers attributs et domaines.
English
Large-scale text-to-image diffusion models have become the backbone of modern image editing, yet text prompts alone do not offer adequate control over the editing process. Two properties are especially desirable: disentanglement, where changing one attribute does not unintentionally alter others, and continuous control, where the strength of an edit can be smoothly adjusted. We introduce a method for disentangled and continuous editing through token-level manipulation of text embeddings. The edits are applied by manipulating the embeddings along carefully chosen directions, which control the strength of the target attribute. To identify such directions, we employ a Sparse Autoencoder (SAE), whose sparse latent space exposes semantically isolated dimensions. Our method operates directly on text embeddings without modifying the diffusion process, making it model agnostic and broadly applicable to various image synthesis backbones. Experiments show that it enables intuitive and efficient manipulations with continuous control across diverse attributes and domains.
PDF32October 7, 2025