점수 최대화를 통한 연속적 시각적 자기회귀 생성
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
저자: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
초록
기존의 통념에 따르면, 자기회귀 모델은 이산 데이터를 처리하는 데 사용된다고 알려져 있습니다. 시각 데이터와 같은 연속적인 모달리티에 적용할 때, 시각적 자기회귀 모델링(VAR)은 일반적으로 데이터를 이산 공간으로 변환하기 위해 양자화 기반 접근법을 사용하며, 이는 상당한 정보 손실을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 벡터 양자화 없이도 직접적인 시각적 자기회귀 생성을 가능하게 하는 연속 VAR 프레임워크를 소개합니다. 이 프레임워크의 이론적 기반은 엄격하게 적절한 점수 규칙(strictly proper scoring rules)으로, 이는 생성 모델이 실제 분포를 얼마나 잘 근사하는지 평가할 수 있는 강력한 통계적 도구를 제공합니다. 이 프레임워크 내에서 우리가 해야 할 일은 엄격하게 적절한 점수를 선택하고 이를 훈련 목표로 설정하여 최적화하는 것입니다. 우리는 주로 에너지 점수(energy score)에 기반한 훈련 목표 클래스를 탐구하며, 이는 가능성(likelihood)을 필요로 하지 않아 연속 공간에서 확률적 예측을 하는 어려움을 극복합니다. GIVT 및 확산 손실(diffusion loss)과 같은 연속 자기회귀 생성에 대한 이전의 연구들도 다른 엄격하게 적절한 점수를 사용하여 우리의 프레임워크에서 유도될 수 있습니다. 소스 코드: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary