ChatPaper.aiChatPaper

FARMER: Flow AutoRegressieve Transformer over Pixels

FARMER: Flow AutoRegressive Transformer over Pixels

October 27, 2025
Auteurs: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI

Samenvatting

Het direct modelleren van de expliciete likelihood van de ruwe dataverdeling is een belangrijk onderwerp in het machine learning-domein, wat de schaalsuccessen in Large Language Models heeft bereikt door autoregressieve modellering. Continue autoregressieve modellering van visuele pixeldata lijdt echter onder extreem lange sequenties en hoogdimensionale ruimtes. In dit artikel presenteren we FARMER, een nieuw end-to-end generatief raamwerk dat Normalizing Flows (NF) en Autoregressieve (AR) modellen verenigt voor traceerbare likelihood-schatting en hoogwaardige beeld synthese direct vanuit ruwe pixels. FARMER gebruikt een inverteerbare autoregressieve flow om beelden om te zetten in latente sequenties, waarvan de verdeling impliciet wordt gemodelleerd door een autoregressief model. Om redundantie en complexiteit in pixelgebaseerde modellering aan te pakken, stellen we een zelfsupervised dimensiereductieschema voor dat NF-latente kanalen verdeelt in informatieve en redundante groepen, wat effectievere en efficiëntere AR-modellering mogelijk maakt. Verder ontwerpen we een one-step distillatieschema om de inferentiesnelheid significant te versnellen en introduceren we een op resampling gebaseerd classifier-free guidance-algoritme om de beeldgeneratiekwaliteit te verbeteren. Uitgebreide experimenten tonen aan dat FARMER competitieve prestaties bereikt in vergelijking met bestaande pixelgebaseerde generatieve modellen, terwijl het exacte likelihoods en schaalbare training biedt.
English
Directly modeling the explicit likelihood of the raw data distribution is key topic in the machine learning area, which achieves the scaling successes in Large Language Models by autoregressive modeling. However, continuous AR modeling over visual pixel data suffer from extremely long sequences and high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end generative framework that unifies Normalizing Flows (NF) and Autoregressive (AR) models for tractable likelihood estimation and high-quality image synthesis directly from raw pixels. FARMER employs an invertible autoregressive flow to transform images into latent sequences, whose distribution is modeled implicitly by an autoregressive model. To address the redundancy and complexity in pixel-level modeling, we propose a self-supervised dimension reduction scheme that partitions NF latent channels into informative and redundant groups, enabling more effective and efficient AR modeling. Furthermore, we design a one-step distillation scheme to significantly accelerate inference speed and introduce a resampling-based classifier-free guidance algorithm to boost image generation quality. Extensive experiments demonstrate that FARMER achieves competitive performance compared to existing pixel-based generative models while providing exact likelihoods and scalable training.
PDF581December 31, 2025