ChatPaper.aiChatPaper

CSD-VAR: Decomposição de Conteúdo-Estilo em Modelos Autoregressivos Visuais

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

July 18, 2025
Autores: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI

Resumo

Desvincular conteúdo e estilo a partir de uma única imagem, conhecido como decomposição conteúdo-estilo (CSD, na sigla em inglês), permite a recontextualização do conteúdo extraído e a estilização dos estilos extraídos, oferecendo maior flexibilidade criativa na síntese visual. Embora métodos recentes de personalização tenham explorado a decomposição explícita de conteúdo e estilo, eles permanecem adaptados para modelos de difusão. Enquanto isso, a Modelagem Autoregressiva Visual (VAR, na sigla em inglês) surgiu como uma alternativa promissora com um paradigma de previsão em escala seguinte, alcançando desempenho comparável ao dos modelos de difusão. Neste artigo, exploramos a VAR como uma estrutura gerativa para CSD, aproveitando seu processo de geração em escala para melhorar a desvinculação. Para isso, propomos o CSD-VAR, um método novo que introduz três inovações principais: (1) uma estratégia de otimização alternada consciente da escala que alinha as representações de conteúdo e estilo com suas respectivas escalas para aprimorar a separação, (2) um método de retificação baseado em SVD para mitigar o vazamento de conteúdo nas representações de estilo, e (3) uma memória Chave-Valor (K-V) Aumentada que melhora a preservação da identidade do conteúdo. Para avaliar essa tarefa, introduzimos o CSD-100, um conjunto de dados especificamente projetado para decomposição conteúdo-estilo, apresentando diversos temas renderizados em vários estilos artísticos. Experimentos demonstram que o CSD-VAR supera abordagens anteriores, alcançando preservação de conteúdo e fidelidade de estilização superiores.
English
Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.
PDF234July 21, 2025