CSD-VAR: Descomposición de Contenido-Estilo en Modelos Autoregresivos Visuales

Resumen

Desentrañar el contenido y el estilo de una sola imagen, conocido como descomposición de contenido-estilo (CSD, por sus siglas en inglés), permite la recontextualización del contenido extraído y la estilización de los estilos extraídos, ofreciendo una mayor flexibilidad creativa en la síntesis visual. Si bien los métodos de personalización recientes han explorado la descomposición explícita de contenido y estilo, estos siguen adaptados para modelos de difusión. Mientras tanto, el Modelado Autoregresivo Visual (VAR) ha surgido como una alternativa prometedora con un paradigma de predicción a escala siguiente, logrando un rendimiento comparable al de los modelos de difusión. En este artículo, exploramos VAR como un marco generativo para CSD, aprovechando su proceso de generación por escalas para mejorar el desentrelazamiento. Con este fin, proponemos CSD-VAR, un método novedoso que introduce tres innovaciones clave: (1) una estrategia de optimización alternante consciente de la escala que alinea las representaciones de contenido y estilo con sus respectivas escalas para mejorar la separación, (2) un método de rectificación basado en SVD para mitigar la filtración de contenido en las representaciones de estilo, y (3) una memoria de Clave-Valor (K-V) Aumentada que mejora la preservación de la identidad del contenido. Para evaluar esta tarea, presentamos CSD-100, un conjunto de datos diseñado específicamente para la descomposición de contenido-estilo, que incluye diversos sujetos representados en varios estilos artísticos. Los experimentos demuestran que CSD-VAR supera a los enfoques anteriores, logrando una preservación de contenido y una fidelidad de estilización superiores.

English

Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.