CSD-VAR: Decomposição de Conteúdo-Estilo em Modelos Autoregressivos Visuais
CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
July 18, 2025
Autores: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI
Resumo
Desvincular conteúdo e estilo a partir de uma única imagem, conhecido como decomposição conteúdo-estilo (CSD, na sigla em inglês), permite a recontextualização do conteúdo extraído e a estilização dos estilos extraídos, oferecendo maior flexibilidade criativa na síntese visual. Embora métodos recentes de personalização tenham explorado a decomposição explícita de conteúdo e estilo, eles permanecem adaptados para modelos de difusão. Enquanto isso, a Modelagem Autoregressiva Visual (VAR, na sigla em inglês) surgiu como uma alternativa promissora com um paradigma de previsão em escala seguinte, alcançando desempenho comparável ao dos modelos de difusão. Neste artigo, exploramos a VAR como uma estrutura gerativa para CSD, aproveitando seu processo de geração em escala para melhorar a desvinculação. Para isso, propomos o CSD-VAR, um método novo que introduz três inovações principais: (1) uma estratégia de otimização alternada consciente da escala que alinha as representações de conteúdo e estilo com suas respectivas escalas para aprimorar a separação, (2) um método de retificação baseado em SVD para mitigar o vazamento de conteúdo nas representações de estilo, e (3) uma memória Chave-Valor (K-V) Aumentada que melhora a preservação da identidade do conteúdo. Para avaliar essa tarefa, introduzimos o CSD-100, um conjunto de dados especificamente projetado para decomposição conteúdo-estilo, apresentando diversos temas renderizados em vários estilos artísticos. Experimentos demonstram que o CSD-VAR supera abordagens anteriores, alcançando preservação de conteúdo e fidelidade de estilização superiores.
English
Disentangling content and style from a single image, known as content-style
decomposition (CSD), enables recontextualization of extracted content and
stylization of extracted styles, offering greater creative flexibility in
visual synthesis. While recent personalization methods have explored the
decomposition of explicit content style, they remain tailored for diffusion
models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a
promising alternative with a next-scale prediction paradigm, achieving
performance comparable to that of diffusion models. In this paper, we explore
VAR as a generative framework for CSD, leveraging its scale-wise generation
process for improved disentanglement. To this end, we propose CSD-VAR, a novel
method that introduces three key innovations: (1) a scale-aware alternating
optimization strategy that aligns content and style representation with their
respective scales to enhance separation, (2) an SVD-based rectification method
to mitigate content leakage into style representations, and (3) an Augmented
Key-Value (K-V) memory enhancing content identity preservation. To benchmark
this task, we introduce CSD-100, a dataset specifically designed for
content-style decomposition, featuring diverse subjects rendered in various
artistic styles. Experiments demonstrate that CSD-VAR outperforms prior
approaches, achieving superior content preservation and stylization fidelity.