ChatPaper.aiChatPaper

CSD-VAR: Inhoud-Stijl Ontleding in Visuele Autoregressieve Modellen

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

July 18, 2025
Auteurs: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI

Samenvatting

Het ontwarren van inhoud en stijl uit een enkele afbeelding, bekend als content-style decomposition (CSD), maakt het mogelijk om de geëxtraheerde inhoud te hercontextualiseren en de geëxtraheerde stijlen te styliseren, wat een grotere creatieve flexibiliteit biedt in visuele synthese. Hoewel recente personalisatiemethoden de ontleding van expliciete inhoud en stijl hebben onderzocht, blijven ze toegespitst op diffusiemodellen. Ondertussen is Visual Autoregressive Modeling (VAR) naar voren gekomen als een veelbelovend alternatief met een next-scale voorspellingsparadigma, dat prestaties bereikt die vergelijkbaar zijn met die van diffusiemodellen. In dit artikel onderzoeken we VAR als een generatief raamwerk voor CSD, waarbij we gebruikmaken van het schaalgewijze generatieproces voor een verbeterde ontwarring. Hiertoe stellen we CSD-VAR voor, een nieuwe methode die drie belangrijke innovaties introduceert: (1) een schaalbewuste alternerende optimalisatiestrategie die inhouds- en stijlrepresentatie afstemt op hun respectievelijke schalen om de scheiding te verbeteren, (2) een SVD-gebaseerde rectificatiemethode om het lekken van inhoud in stijlrepresentaties te verminderen, en (3) een Augmented Key-Value (K-V) geheugen dat de bewaring van inhoudsidentiteit versterkt. Om deze taak te benchmarken, introduceren we CSD-100, een dataset die specifiek is ontworpen voor content-style decomposition, met diverse onderwerpen weergegeven in verschillende artistieke stijlen. Experimenten tonen aan dat CSD-VAR eerdere benaderingen overtreft, met superieure inhoudsbewaring en stilisatietrouw.
English
Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.
PDF244July 21, 2025