ChatPaper.aiChatPaper

CSD-VAR: Декомпозиция содержания и стиля в визуальных авторегрессионных моделях

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

July 18, 2025
Авторы: Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
cs.AI

Аннотация

Разделение содержания и стиля из одного изображения, известное как декомпозиция содержания и стиля (Content-Style Decomposition, CSD), позволяет переконтекстуализировать извлечённое содержание и стилизовать извлечённые стили, что обеспечивает большую творческую гибкость в визуальном синтезе. Хотя современные методы персонализации исследовали декомпозицию явного содержания и стиля, они остаются адаптированными для диффузионных моделей. В то же время визуальное авторегрессивное моделирование (Visual Autoregressive Modeling, VAR) появилось как перспективная альтернатива с парадигмой предсказания следующего масштаба, достигая производительности, сопоставимой с диффузионными моделями. В данной работе мы исследуем VAR как генеративную основу для CSD, используя её пошаговый процесс генерации для улучшения разделения. С этой целью мы предлагаем CSD-VAR — новый метод, который вводит три ключевых инновации: (1) стратегию масштабно-ориентированного чередующегося оптимизирования, которая согласует представления содержания и стиля с их соответствующими масштабами для улучшения разделения, (2) метод коррекции на основе сингулярного разложения (SVD) для минимизации утечки содержания в представления стиля и (3) расширенную память ключ-значение (Key-Value, K-V), улучшающую сохранение идентичности содержания. Для оценки этой задачи мы представляем CSD-100 — набор данных, специально разработанный для декомпозиции содержания и стиля, включающий разнообразные объекты, представленные в различных художественных стилях. Эксперименты показывают, что CSD-VAR превосходит предыдущие подходы, достигая превосходного сохранения содержания и точности стилизации.
English
Disentangling content and style from a single image, known as content-style decomposition (CSD), enables recontextualization of extracted content and stylization of extracted styles, offering greater creative flexibility in visual synthesis. While recent personalization methods have explored the decomposition of explicit content style, they remain tailored for diffusion models. Meanwhile, Visual Autoregressive Modeling (VAR) has emerged as a promising alternative with a next-scale prediction paradigm, achieving performance comparable to that of diffusion models. In this paper, we explore VAR as a generative framework for CSD, leveraging its scale-wise generation process for improved disentanglement. To this end, we propose CSD-VAR, a novel method that introduces three key innovations: (1) a scale-aware alternating optimization strategy that aligns content and style representation with their respective scales to enhance separation, (2) an SVD-based rectification method to mitigate content leakage into style representations, and (3) an Augmented Key-Value (K-V) memory enhancing content identity preservation. To benchmark this task, we introduce CSD-100, a dataset specifically designed for content-style decomposition, featuring diverse subjects rendered in various artistic styles. Experiments demonstrate that CSD-VAR outperforms prior approaches, achieving superior content preservation and stylization fidelity.
PDF204July 21, 2025