VA-π: Вариационное согласование стратегии для поточечного авторегрессионного порождения

Аннотация

Авторегрессионная (AR) визуальная генерация опирается на токенизаторы для преобразования изображений в дискретные последовательности и обратно. Однако токенизаторы обучаются реконструировать чистые изображения из эталонных токенов, тогда как AR-генераторы оптимизируются только на правдоподобие токенов. Это рассогласование приводит к тому, что сгенерированные последовательности токенов могут декодироваться в изображения низкого качества из-за отсутствия прямого контроля со стороны пиксельного пространства. Мы предлагаем VA-π — облегченную пост-обучающую структуру, которая напрямую оптимизирует AR-модели с помощью принципиального целевого критерия в пиксельном пространстве. VA-π формализует согласование генератора и токенизатора как вариационную оптимизацию, выводя нижнюю оценку доказательства (ELBO), объединяющую пиксельную реконструкцию и авторегрессионное моделирование. Для оптимизации в дискретном пространстве токенов VA-π вводит стратегию согласования на основе обучения с подкреплением, которая трактует AR-генератор как политику, используя качество реконструкции в пиксельном пространстве в качестве внутреннего вознаграждения. Вознаграждение измеряется тем, насколько точно предсказанные последовательности токенов восстанавливают исходное изображение при учительском форсировании, что дает модели прямое пиксельное руководство без дорогостоящего свободного сэмплирования. Регуляризационный член ELBO служит естественным регуляризатором, сохраняя распределительную согласованность токенов. VA-π позволяет быстро адаптировать существующие AR-генераторы без переобучения токенизатора или внешних моделей вознаграждения. Всего на 1% данных ImageNet-1K и 25 минутах тонкой настройки метод снижает FID с 14.36 до 7.65 и улучшает IS с 86.55 до 116.70 для LlamaGen-XXL, одновременно демонстрируя значительный прогресс в задаче текст-изображение на GenEval как для модели визуальной генерации (LlamaGen: с 0.306 до 0.339), так и для унифицированной мультимодальной модели (Janus-Pro: с 0.725 до 0.744). Код доступен по адресу https://github.com/Lil-Shake/VA-Pi.

English

Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.

VA-π: Вариационное согласование стратегии для поточечного авторегрессионного порождения

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

Аннотация

Support