CSD-VAR: Decomposizione Contenuto-Stile nei Modelli Autoregressivi Visivi
CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
July 18, 2025
Autori: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI
Abstract
La separazione di contenuto e stile da una singola immagine, nota come decomposizione contenuto-stile (CSD), consente la ricontestualizzazione del contenuto estratto e la stilizzazione degli stili estratti, offrendo una maggiore flessibilità creativa nella sintesi visiva. Sebbene i recenti metodi di personalizzazione abbiano esplorato la decomposizione esplicita di contenuto e stile, rimangono adattati per i modelli di diffusione. Nel frattempo, il Modellamento Autoregressivo Visivo (VAR) è emerso come una promettente alternativa con un paradigma di predizione su scala successiva, raggiungendo prestazioni comparabili a quelle dei modelli di diffusione. In questo articolo, esploriamo il VAR come framework generativo per la CSD, sfruttando il suo processo di generazione su scala per migliorare la separazione. A tal fine, proponiamo CSD-VAR, un metodo innovativo che introduce tre innovazioni chiave: (1) una strategia di ottimizzazione alternata consapevole della scala che allinea le rappresentazioni di contenuto e stile con le rispettive scale per migliorare la separazione, (2) un metodo di rettifica basato su SVD per mitigare la fuoriuscita di contenuto nelle rappresentazioni di stile, e (3) una memoria Augmented Key-Value (K-V) che migliora la preservazione dell'identità del contenuto. Per valutare questo compito, introduciamo CSD-100, un dataset specificamente progettato per la decomposizione contenuto-stile, che presenta soggetti diversi resi in vari stili artistici. Gli esperimenti dimostrano che CSD-VAR supera gli approcci precedenti, raggiungendo una superiore preservazione del contenuto e fedeltà di stilizzazione.
English
Disentangling content and style from a single image, known as content-style
decomposition (CSD), enables recontextualization of extracted content and
stylization of extracted styles, offering greater creative flexibility in
visual synthesis. While recent personalization methods have explored the
decomposition of explicit content style, they remain tailored for diffusion
models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a
promising alternative with a next-scale prediction paradigm, achieving
performance comparable to that of diffusion models. In this paper, we explore
VAR as a generative framework for CSD, leveraging its scale-wise generation
process for improved disentanglement. To this end, we propose CSD-VAR, a novel
method that introduces three key innovations: (1) a scale-aware alternating
optimization strategy that aligns content and style representation with their
respective scales to enhance separation, (2) an SVD-based rectification method
to mitigate content leakage into style representations, and (3) an Augmented
Key-Value (K-V) memory enhancing content identity preservation. To benchmark
this task, we introduce CSD-100, a dataset specifically designed for
content-style decomposition, featuring diverse subjects rendered in various
artistic styles. Experiments demonstrate that CSD-VAR outperforms prior
approaches, achieving superior content preservation and stylization fidelity.