CSD-VAR : Décomposition Contenu-Style dans les Modèles Autoregressifs Visuels

Résumé

La séparation du contenu et du style à partir d'une seule image, connue sous le nom de décomposition contenu-style (CSD), permet la recontextualisation du contenu extrait et la stylisation des styles extraits, offrant ainsi une plus grande flexibilité créative dans la synthèse visuelle. Bien que les méthodes de personnalisation récentes aient exploré la décomposition explicite du contenu et du style, elles restent adaptées aux modèles de diffusion. Parallèlement, la modélisation visuelle autorégressive (VAR) est apparue comme une alternative prometteuse avec un paradigme de prédiction à l'échelle suivante, atteignant des performances comparables à celles des modèles de diffusion. Dans cet article, nous explorons la VAR en tant que cadre génératif pour la CSD, en tirant parti de son processus de génération par échelle pour améliorer la séparation. À cette fin, nous proposons CSD-VAR, une méthode novatrice qui introduit trois innovations clés : (1) une stratégie d'optimisation alternée sensible à l'échelle qui aligne les représentations du contenu et du style avec leurs échelles respectives pour renforcer la séparation, (2) une méthode de rectification basée sur la décomposition en valeurs singulières (SVD) pour atténuer la fuite de contenu dans les représentations stylistiques, et (3) une mémoire clé-valeur (K-V) augmentée pour améliorer la préservation de l'identité du contenu. Pour évaluer cette tâche, nous introduisons CSD-100, un ensemble de données spécifiquement conçu pour la décomposition contenu-style, présentant des sujets variés rendus dans différents styles artistiques. Les expériences démontrent que CSD-VAR surpasse les approches précédentes, atteignant une préservation du contenu et une fidélité de stylisation supérieures.

English

Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.