Непрерывная визуальная авторегрессионная генерация через максимизацию оценки
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Авторы: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Аннотация
Традиционный подход предполагает, что авторегрессионные модели используются для обработки дискретных данных. При применении к непрерывным модальностям, таким как визуальные данные, визуальное авторегрессионное моделирование (VAR) обычно прибегает к методам, основанным на квантовании, чтобы преобразовать данные в дискретное пространство, что может привести к значительной потере информации. Для решения этой проблемы мы представляем фреймворк Continuous VAR, который позволяет осуществлять прямое визуальное авторегрессионное генеративное моделирование без использования векторного квантования. Теоретической основой этого подхода являются строго правильные оценочные правила, которые предоставляют мощные статистические инструменты для оценки того, насколько точно генеративная модель аппроксимирует истинное распределение. В рамках этого фреймворка нам достаточно выбрать строго правильную оценку и установить её в качестве целевой функции для оптимизации. Мы в основном исследуем класс целевых функций, основанных на энергетической оценке, которая не требует вычисления правдоподобия и, таким образом, преодолевает трудности, связанные с вероятностными предсказаниями в непрерывном пространстве. Предыдущие работы по непрерывной авторегрессионной генерации, такие как GIVT и диффузионные потери, также могут быть выведены из нашего фреймворка с использованием других строго правильных оценок. Исходный код: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary