FARMER: Flow AutoRegressieve Transformer over Pixels
FARMER: Flow AutoRegressive Transformer over Pixels
October 27, 2025
Auteurs: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI
Samenvatting
Het direct modelleren van de expliciete likelihood van de ruwe dataverdeling is een belangrijk onderwerp in het machine learning-domein, wat de schaalsuccessen in Large Language Models heeft bereikt door autoregressieve modellering. Continue autoregressieve modellering van visuele pixeldata lijdt echter onder extreem lange sequenties en hoogdimensionale ruimtes. In dit artikel presenteren we FARMER, een nieuw end-to-end generatief raamwerk dat Normalizing Flows (NF) en Autoregressieve (AR) modellen verenigt voor traceerbare likelihood-schatting en hoogwaardige beeld synthese direct vanuit ruwe pixels. FARMER gebruikt een inverteerbare autoregressieve flow om beelden om te zetten in latente sequenties, waarvan de verdeling impliciet wordt gemodelleerd door een autoregressief model. Om redundantie en complexiteit in pixelgebaseerde modellering aan te pakken, stellen we een zelfsupervised dimensiereductieschema voor dat NF-latente kanalen verdeelt in informatieve en redundante groepen, wat effectievere en efficiëntere AR-modellering mogelijk maakt. Verder ontwerpen we een one-step distillatieschema om de inferentiesnelheid significant te versnellen en introduceren we een op resampling gebaseerd classifier-free guidance-algoritme om de beeldgeneratiekwaliteit te verbeteren. Uitgebreide experimenten tonen aan dat FARMER competitieve prestaties bereikt in vergelijking met bestaande pixelgebaseerde generatieve modellen, terwijl het exacte likelihoods en schaalbare training biedt.
English
Directly modeling the explicit likelihood of the raw data distribution is key
topic in the machine learning area, which achieves the scaling successes in
Large Language Models by autoregressive modeling. However, continuous AR
modeling over visual pixel data suffer from extremely long sequences and
high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end
generative framework that unifies Normalizing Flows (NF) and Autoregressive
(AR) models for tractable likelihood estimation and high-quality image
synthesis directly from raw pixels. FARMER employs an invertible autoregressive
flow to transform images into latent sequences, whose distribution is modeled
implicitly by an autoregressive model. To address the redundancy and complexity
in pixel-level modeling, we propose a self-supervised dimension reduction
scheme that partitions NF latent channels into informative and redundant
groups, enabling more effective and efficient AR modeling. Furthermore, we
design a one-step distillation scheme to significantly accelerate inference
speed and introduce a resampling-based classifier-free guidance algorithm to
boost image generation quality. Extensive experiments demonstrate that FARMER
achieves competitive performance compared to existing pixel-based generative
models while providing exact likelihoods and scalable training.