ChatPaper.aiChatPaper

FARMER: Trasformatore AutoRegressivo su Flusso di Pixel

FARMER: Flow AutoRegressive Transformer over Pixels

October 27, 2025
Autori: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI

Abstract

La modellazione diretta della likelihood esplicita della distribuzione dei dati grezzi è un tema chiave nell'ambito del machine learning, che ha ottenuto successi su larga scala nei Large Language Model tramite la modellazione autoregressiva. Tuttavia, la modellazione AR continua sui dati di pixel visivi soffre di sequenze estremamente lunghe e spazi ad alta dimensionalità. In questo articolo presentiamo FARMER, un innovativo framework generativo end-to-end che unisce Normalizing Flows (NF) e modelli Autoregressivi (AR) per la stima trattabile della likelihood e la sintesi di immagini di alta qualità direttamente dai pixel grezzi. FARMER utilizza un flusso autoregressivo invertibile per trasformare le immagini in sequenze latenti, la cui distribuzione è modellata implicitamente da un modello autoregressivo. Per affrontare la ridondanza e la complessità nella modellazione a livello di pixel, proponiamo uno schema di riduzione dimensionale self-supervised che partiziona i canali latenti NF in gruppi informativi e ridondanti, consentendo una modellazione AR più efficace ed efficiente. Inoltre, progettiamo uno schema di distillazione one-step per accelerare significativamente la velocità di inferenza e introduciamo un algoritmo di guidance classifier-free basato sul resampling per migliorare la qualità della generazione di immagini. Esperimenti estensivi dimostrano che FARMER raggiunge prestazioni competitive rispetto agli esistenti modelli generativi basati su pixel, fornendo al contempo likelihood esatte e training scalabile.
English
Directly modeling the explicit likelihood of the raw data distribution is key topic in the machine learning area, which achieves the scaling successes in Large Language Models by autoregressive modeling. However, continuous AR modeling over visual pixel data suffer from extremely long sequences and high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end generative framework that unifies Normalizing Flows (NF) and Autoregressive (AR) models for tractable likelihood estimation and high-quality image synthesis directly from raw pixels. FARMER employs an invertible autoregressive flow to transform images into latent sequences, whose distribution is modeled implicitly by an autoregressive model. To address the redundancy and complexity in pixel-level modeling, we propose a self-supervised dimension reduction scheme that partitions NF latent channels into informative and redundant groups, enabling more effective and efficient AR modeling. Furthermore, we design a one-step distillation scheme to significantly accelerate inference speed and introduce a resampling-based classifier-free guidance algorithm to boost image generation quality. Extensive experiments demonstrate that FARMER achieves competitive performance compared to existing pixel-based generative models while providing exact likelihoods and scalable training.
PDF571December 3, 2025