FARMER: Trasformatore AutoRegressivo su Flusso di Pixel
FARMER: Flow AutoRegressive Transformer over Pixels
October 27, 2025
Autori: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI
Abstract
La modellazione diretta della likelihood esplicita della distribuzione dei dati grezzi è un tema chiave nell'ambito del machine learning, che ha ottenuto successi su larga scala nei Large Language Model tramite la modellazione autoregressiva. Tuttavia, la modellazione AR continua sui dati di pixel visivi soffre di sequenze estremamente lunghe e spazi ad alta dimensionalità. In questo articolo presentiamo FARMER, un innovativo framework generativo end-to-end che unisce Normalizing Flows (NF) e modelli Autoregressivi (AR) per la stima trattabile della likelihood e la sintesi di immagini di alta qualità direttamente dai pixel grezzi. FARMER utilizza un flusso autoregressivo invertibile per trasformare le immagini in sequenze latenti, la cui distribuzione è modellata implicitamente da un modello autoregressivo. Per affrontare la ridondanza e la complessità nella modellazione a livello di pixel, proponiamo uno schema di riduzione dimensionale self-supervised che partiziona i canali latenti NF in gruppi informativi e ridondanti, consentendo una modellazione AR più efficace ed efficiente. Inoltre, progettiamo uno schema di distillazione one-step per accelerare significativamente la velocità di inferenza e introduciamo un algoritmo di guidance classifier-free basato sul resampling per migliorare la qualità della generazione di immagini. Esperimenti estensivi dimostrano che FARMER raggiunge prestazioni competitive rispetto agli esistenti modelli generativi basati su pixel, fornendo al contempo likelihood esatte e training scalabile.
English
Directly modeling the explicit likelihood of the raw data distribution is key
topic in the machine learning area, which achieves the scaling successes in
Large Language Models by autoregressive modeling. However, continuous AR
modeling over visual pixel data suffer from extremely long sequences and
high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end
generative framework that unifies Normalizing Flows (NF) and Autoregressive
(AR) models for tractable likelihood estimation and high-quality image
synthesis directly from raw pixels. FARMER employs an invertible autoregressive
flow to transform images into latent sequences, whose distribution is modeled
implicitly by an autoregressive model. To address the redundancy and complexity
in pixel-level modeling, we propose a self-supervised dimension reduction
scheme that partitions NF latent channels into informative and redundant
groups, enabling more effective and efficient AR modeling. Furthermore, we
design a one-step distillation scheme to significantly accelerate inference
speed and introduce a resampling-based classifier-free guidance algorithm to
boost image generation quality. Extensive experiments demonstrate that FARMER
achieves competitive performance compared to existing pixel-based generative
models while providing exact likelihoods and scalable training.