Kontinuierliche visuelle autoregressive Erzeugung durch Score-Maximierung
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Autoren: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Zusammenfassung
Die gängige Meinung besagt, dass autoregressive Modelle zur Verarbeitung diskreter Daten verwendet werden. Bei der Anwendung auf kontinuierliche Modalitäten wie visuelle Daten greift das Visual AutoRegressive Modeling (VAR) typischerweise auf quantisierungsbasierte Ansätze zurück, um die Daten in einen diskreten Raum zu überführen, was zu erheblichen Informationsverlusten führen kann. Um dieses Problem zu lösen, führen wir ein Continuous VAR-Framework ein, das eine direkte visuelle autoregressive Generierung ohne Vektorquantisierung ermöglicht. Die zugrunde liegende theoretische Grundlage bilden streng korrekte Bewertungsregeln (strictly proper scoring rules), die leistungsstarke statistische Werkzeuge bereitstellen, um zu bewerten, wie gut ein generatives Modell die wahre Verteilung annähert. Innerhalb dieses Frameworks müssen wir lediglich eine streng korrekte Bewertungsregel auswählen und sie als Trainingsziel festlegen, das optimiert werden soll. Wir untersuchen hauptsächlich eine Klasse von Trainingszielen, die auf dem Energie-Score basieren, der likelihood-frei ist und somit die Schwierigkeit überwindet, probabilistische Vorhersagen im kontinuierlichen Raum zu treffen. Frühere Ansätze zur kontinuierlichen autoregressiven Generierung, wie GIVT und Diffusionsverlust, können ebenfalls aus unserem Framework abgeleitet werden, indem andere streng korrekte Bewertungsregeln verwendet werden. Quellcode: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary