CSD-VAR: Descomposición de Contenido-Estilo en Modelos Autoregresivos Visuales
CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
July 18, 2025
Autores: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI
Resumen
Desentrañar el contenido y el estilo de una sola imagen, conocido como descomposición de contenido-estilo (CSD, por sus siglas en inglés), permite la recontextualización del contenido extraído y la estilización de los estilos extraídos, ofreciendo una mayor flexibilidad creativa en la síntesis visual. Si bien los métodos de personalización recientes han explorado la descomposición explícita de contenido y estilo, estos siguen adaptados para modelos de difusión. Mientras tanto, el Modelado Autoregresivo Visual (VAR) ha surgido como una alternativa prometedora con un paradigma de predicción a escala siguiente, logrando un rendimiento comparable al de los modelos de difusión. En este artículo, exploramos VAR como un marco generativo para CSD, aprovechando su proceso de generación por escalas para mejorar el desentrelazamiento. Con este fin, proponemos CSD-VAR, un método novedoso que introduce tres innovaciones clave: (1) una estrategia de optimización alternante consciente de la escala que alinea las representaciones de contenido y estilo con sus respectivas escalas para mejorar la separación, (2) un método de rectificación basado en SVD para mitigar la filtración de contenido en las representaciones de estilo, y (3) una memoria de Clave-Valor (K-V) Aumentada que mejora la preservación de la identidad del contenido. Para evaluar esta tarea, presentamos CSD-100, un conjunto de datos diseñado específicamente para la descomposición de contenido-estilo, que incluye diversos sujetos representados en varios estilos artísticos. Los experimentos demuestran que CSD-VAR supera a los enfoques anteriores, logrando una preservación de contenido y una fidelidad de estilización superiores.
English
Disentangling content and style from a single image, known as content-style
decomposition (CSD), enables recontextualization of extracted content and
stylization of extracted styles, offering greater creative flexibility in
visual synthesis. While recent personalization methods have explored the
decomposition of explicit content style, they remain tailored for diffusion
models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a
promising alternative with a next-scale prediction paradigm, achieving
performance comparable to that of diffusion models. In this paper, we explore
VAR as a generative framework for CSD, leveraging its scale-wise generation
process for improved disentanglement. To this end, we propose CSD-VAR, a novel
method that introduces three key innovations: (1) a scale-aware alternating
optimization strategy that aligns content and style representation with their
respective scales to enhance separation, (2) an SVD-based rectification method
to mitigate content leakage into style representations, and (3) an Augmented
Key-Value (K-V) memory enhancing content identity preservation. To benchmark
this task, we introduce CSD-100, a dataset specifically designed for
content-style decomposition, featuring diverse subjects rendered in various
artistic styles. Experiments demonstrate that CSD-VAR outperforms prior
approaches, achieving superior content preservation and stylization fidelity.