CSD-VAR: 시각적 자기회귀 모델에서의 콘텐츠-스타일 분해
CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
July 18, 2025
저자: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI
초록
단일 이미지에서 콘텐츠와 스타일을 분리하는 콘텐츠-스타일 분해(CSD)는 추출된 콘텐츠의 재구성과 추출된 스타일의 스타일화를 가능하게 하여 시각적 합성에서 더 큰 창의적 유연성을 제공합니다. 최근의 개인화 방법들은 명시적인 콘텐츠와 스타일의 분해를 탐구했지만, 이들은 여전히 디퓨전 모델에 맞춰져 있습니다. 한편, 시각적 자기회귀 모델링(VAR)은 다음 스케일 예측 패러다임을 통해 디퓨전 모델과 비슷한 성능을 달성하며 유망한 대안으로 부상했습니다. 본 논문에서는 VAR을 CSD를 위한 생성 프레임워크로 탐구하고, 스케일별 생성 프로세스를 활용하여 개선된 분리를 달성합니다. 이를 위해 우리는 CSD-VAR이라는 새로운 방법을 제안하며, 이는 세 가지 주요 혁신을 도입합니다: (1) 콘텐츠와 스타일 표현을 각각의 스케일에 맞춰 분리를 강화하는 스케일 인식 교대 최적화 전략, (2) 콘텐츠가 스타일 표현으로 누출되는 것을 방지하기 위한 SVD 기반 정정 방법, (3) 콘텐츠 정체성 보존을 강화하는 확장 키-값(K-V) 메모리. 이 작업을 벤치마킹하기 위해, 우리는 다양한 주제가 다양한 예술적 스타일로 표현된 CSD-100 데이터셋을 소개합니다. 실험 결과, CSD-VAR은 기존 접근법을 능가하며 우수한 콘텐츠 보존과 스타일화 충실도를 달성함을 보여줍니다.
English
Disentangling content and style from a single image, known as content-style
decomposition (CSD), enables recontextualization of extracted content and
stylization of extracted styles, offering greater creative flexibility in
visual synthesis. While recent personalization methods have explored the
decomposition of explicit content style, they remain tailored for diffusion
models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a
promising alternative with a next-scale prediction paradigm, achieving
performance comparable to that of diffusion models. In this paper, we explore
VAR as a generative framework for CSD, leveraging its scale-wise generation
process for improved disentanglement. To this end, we propose CSD-VAR, a novel
method that introduces three key innovations: (1) a scale-aware alternating
optimization strategy that aligns content and style representation with their
respective scales to enhance separation, (2) an SVD-based rectification method
to mitigate content leakage into style representations, and (3) an Augmented
Key-Value (K-V) memory enhancing content identity preservation. To benchmark
this task, we introduce CSD-100, a dataset specifically designed for
content-style decomposition, featuring diverse subjects rendered in various
artistic styles. Experiments demonstrate that CSD-VAR outperforms prior
approaches, achieving superior content preservation and stylization fidelity.