ChatPaper.aiChatPaper

CSD-VAR: Inhalts-Stil-Zerlegung in visuellen autoregressiven Modellen

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

July 18, 2025
papers.authors: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI

papers.abstract

Das Entwirren von Inhalt und Stil aus einem einzelnen Bild, bekannt als Content-Style Decomposition (CSD), ermöglicht die Neukontextualisierung des extrahierten Inhalts und die Stilisierung der extrahierten Stile, was eine größere kreative Flexibilität in der visuellen Synthese bietet. Während neuere Personalisierungsmethoden die Zerlegung von explizitem Inhalt und Stil untersucht haben, bleiben sie auf Diffusionsmodelle zugeschnitten. Inzwischen hat Visual Autoregressive Modeling (VAR) als vielversprechende Alternative mit einem Next-Scale-Vorhersageparadigma an Bedeutung gewonnen und erreicht eine Leistung, die mit der von Diffusionsmodellen vergleichbar ist. In diesem Artikel untersuchen wir VAR als generatives Framework für CSD und nutzen seinen skalenweisen Generierungsprozess für eine verbesserte Entwirrung. Zu diesem Zweck schlagen wir CSD-VAR vor, eine neuartige Methode, die drei Schlüsselinnovationen einführt: (1) eine skalenbewusste alternierende Optimierungsstrategie, die die Darstellung von Inhalt und Stil mit ihren jeweiligen Skalen abstimmt, um die Trennung zu verbessern, (2) eine SVD-basierte Rektifizierungsmethode, um das Eindringen von Inhalten in Stildarstellungen zu minimieren, und (3) einen erweiterten Key-Value (K-V)-Speicher, der die Bewahrung der Inhaltsidentität verbessert. Um diese Aufgabe zu bewerten, führen wir CSD-100 ein, einen speziell für die Content-Style-Decomposition entwickelten Datensatz, der verschiedene Motive in verschiedenen künstlerischen Stilen darstellt. Experimente zeigen, dass CSD-VAR frühere Ansätze übertrifft und eine überlegene Inhaltsbewahrung und Stilisierungstreue erreicht.
English
Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.
PDF204July 21, 2025