ChatPaper.aiChatPaper

점수 최대화를 통한 연속적 시각적 자기회귀 생성

Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025
저자: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI

초록

기존의 통념에 따르면, 자기회귀 모델은 이산 데이터를 처리하는 데 사용된다고 알려져 있습니다. 시각 데이터와 같은 연속적인 모달리티에 적용할 때, 시각적 자기회귀 모델링(VAR)은 일반적으로 데이터를 이산 공간으로 변환하기 위해 양자화 기반 접근법을 사용하며, 이는 상당한 정보 손실을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 벡터 양자화 없이도 직접적인 시각적 자기회귀 생성을 가능하게 하는 연속 VAR 프레임워크를 소개합니다. 이 프레임워크의 이론적 기반은 엄격하게 적절한 점수 규칙(strictly proper scoring rules)으로, 이는 생성 모델이 실제 분포를 얼마나 잘 근사하는지 평가할 수 있는 강력한 통계적 도구를 제공합니다. 이 프레임워크 내에서 우리가 해야 할 일은 엄격하게 적절한 점수를 선택하고 이를 훈련 목표로 설정하여 최적화하는 것입니다. 우리는 주로 에너지 점수(energy score)에 기반한 훈련 목표 클래스를 탐구하며, 이는 가능성(likelihood)을 필요로 하지 않아 연속 공간에서 확률적 예측을 하는 어려움을 극복합니다. GIVT 및 확산 손실(diffusion loss)과 같은 연속 자기회귀 생성에 대한 이전의 연구들도 다른 엄격하게 적절한 점수를 사용하여 우리의 프레임워크에서 유도될 수 있습니다. 소스 코드: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.

Summary

AI-Generated Summary

PDF31May 13, 2025