CSD-VAR: Inhalts-Stil-Zerlegung in visuellen autoregressiven Modellen
CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
July 18, 2025
papers.authors: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI
papers.abstract
Das Entwirren von Inhalt und Stil aus einem einzelnen Bild, bekannt als Content-Style Decomposition (CSD), ermöglicht die Neukontextualisierung des extrahierten Inhalts und die Stilisierung der extrahierten Stile, was eine größere kreative Flexibilität in der visuellen Synthese bietet. Während neuere Personalisierungsmethoden die Zerlegung von explizitem Inhalt und Stil untersucht haben, bleiben sie auf Diffusionsmodelle zugeschnitten. Inzwischen hat Visual Autoregressive Modeling (VAR) als vielversprechende Alternative mit einem Next-Scale-Vorhersageparadigma an Bedeutung gewonnen und erreicht eine Leistung, die mit der von Diffusionsmodellen vergleichbar ist. In diesem Artikel untersuchen wir VAR als generatives Framework für CSD und nutzen seinen skalenweisen Generierungsprozess für eine verbesserte Entwirrung. Zu diesem Zweck schlagen wir CSD-VAR vor, eine neuartige Methode, die drei Schlüsselinnovationen einführt: (1) eine skalenbewusste alternierende Optimierungsstrategie, die die Darstellung von Inhalt und Stil mit ihren jeweiligen Skalen abstimmt, um die Trennung zu verbessern, (2) eine SVD-basierte Rektifizierungsmethode, um das Eindringen von Inhalten in Stildarstellungen zu minimieren, und (3) einen erweiterten Key-Value (K-V)-Speicher, der die Bewahrung der Inhaltsidentität verbessert. Um diese Aufgabe zu bewerten, führen wir CSD-100 ein, einen speziell für die Content-Style-Decomposition entwickelten Datensatz, der verschiedene Motive in verschiedenen künstlerischen Stilen darstellt. Experimente zeigen, dass CSD-VAR frühere Ansätze übertrifft und eine überlegene Inhaltsbewahrung und Stilisierungstreue erreicht.
English
Disentangling content and style from a single image, known as content-style
decomposition (CSD), enables recontextualization of extracted content and
stylization of extracted styles, offering greater creative flexibility in
visual synthesis. While recent personalization methods have explored the
decomposition of explicit content style, they remain tailored for diffusion
models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a
promising alternative with a next-scale prediction paradigm, achieving
performance comparable to that of diffusion models. In this paper, we explore
VAR as a generative framework for CSD, leveraging its scale-wise generation
process for improved disentanglement. To this end, we propose CSD-VAR, a novel
method that introduces three key innovations: (1) a scale-aware alternating
optimization strategy that aligns content and style representation with their
respective scales to enhance separation, (2) an SVD-based rectification method
to mitigate content leakage into style representations, and (3) an Augmented
Key-Value (K-V) memory enhancing content identity preservation. To benchmark
this task, we introduce CSD-100, a dataset specifically designed for
content-style decomposition, featuring diverse subjects rendered in various
artistic styles. Experiments demonstrate that CSD-VAR outperforms prior
approaches, achieving superior content preservation and stylization fidelity.