FARMER: Transformador de Flujo AutoRegresivo sobre Píxeles
FARMER: Flow AutoRegressive Transformer over Pixels
October 27, 2025
Autores: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI
Resumen
Modelar explícitamente la verosimilitud de la distribución de datos en bruto es un tema fundamental en el área del aprendizaje automático, que ha logrado los éxitos de escalabilidad en los Modelos de Lenguaje a Gran Escala mediante el modelado autoregresivo. Sin embargo, el modelado AR continuo sobre datos de píxeles visuales sufre de secuencias extremadamente largas y espacios de alta dimensionalidad. En este artículo, presentamos FARMER, un novedoso marco generativo de extremo a extremo que unifica los Flujos Normalizadores (NF) y los modelos Autoregresivos (AR) para la estimación manejable de verosimilitud y la síntesis de imágenes de alta calidad directamente desde píxeles en bruto. FARMER emplea un flujo autoregresivo invertible para transformar imágenes en secuencias latentes, cuya distribución se modela implícitamente mediante un modelo autoregresivo. Para abordar la redundancia y complejidad en el modelado a nivel de píxel, proponemos un esquema de reducción de dimensionalidad auto-supervisado que divide los canales latentes del NF en grupos informativos y redundantes, permitiendo un modelado AR más efectivo y eficiente. Además, diseñamos un esquema de destilación en un solo paso para acelerar significativamente la velocidad de inferencia e introducimos un algoritmo de guía libre de clasificador basado en remuestreo para mejorar la calidad de la generación de imágenes. Experimentos exhaustivos demuestran que FARMER logra un rendimiento competitivo en comparación con los modelos generativos basados en píxeles existentes, al mismo tiempo que proporciona verosimilitudes exactas y un entrenamiento escalable.
English
Directly modeling the explicit likelihood of the raw data distribution is key
topic in the machine learning area, which achieves the scaling successes in
Large Language Models by autoregressive modeling. However, continuous AR
modeling over visual pixel data suffer from extremely long sequences and
high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end
generative framework that unifies Normalizing Flows (NF) and Autoregressive
(AR) models for tractable likelihood estimation and high-quality image
synthesis directly from raw pixels. FARMER employs an invertible autoregressive
flow to transform images into latent sequences, whose distribution is modeled
implicitly by an autoregressive model. To address the redundancy and complexity
in pixel-level modeling, we propose a self-supervised dimension reduction
scheme that partitions NF latent channels into informative and redundant
groups, enabling more effective and efficient AR modeling. Furthermore, we
design a one-step distillation scheme to significantly accelerate inference
speed and introduce a resampling-based classifier-free guidance algorithm to
boost image generation quality. Extensive experiments demonstrate that FARMER
achieves competitive performance compared to existing pixel-based generative
models while providing exact likelihoods and scalable training.