FARMER: Transformador de Flujo AutoRegresivo sobre Píxeles

Resumen

Modelar explícitamente la verosimilitud de la distribución de datos en bruto es un tema fundamental en el área del aprendizaje automático, que ha logrado los éxitos de escalabilidad en los Modelos de Lenguaje a Gran Escala mediante el modelado autoregresivo. Sin embargo, el modelado AR continuo sobre datos de píxeles visuales sufre de secuencias extremadamente largas y espacios de alta dimensionalidad. En este artículo, presentamos FARMER, un novedoso marco generativo de extremo a extremo que unifica los Flujos Normalizadores (NF) y los modelos Autoregresivos (AR) para la estimación manejable de verosimilitud y la síntesis de imágenes de alta calidad directamente desde píxeles en bruto. FARMER emplea un flujo autoregresivo invertible para transformar imágenes en secuencias latentes, cuya distribución se modela implícitamente mediante un modelo autoregresivo. Para abordar la redundancia y complejidad en el modelado a nivel de píxel, proponemos un esquema de reducción de dimensionalidad auto-supervisado que divide los canales latentes del NF en grupos informativos y redundantes, permitiendo un modelado AR más efectivo y eficiente. Además, diseñamos un esquema de destilación en un solo paso para acelerar significativamente la velocidad de inferencia e introducimos un algoritmo de guía libre de clasificador basado en remuestreo para mejorar la calidad de la generación de imágenes. Experimentos exhaustivos demuestran que FARMER logra un rendimiento competitivo en comparación con los modelos generativos basados en píxeles existentes, al mismo tiempo que proporciona verosimilitudes exactas y un entrenamiento escalable.

English

Directly modeling the explicit likelihood of the raw data distribution is key topic in the machine learning area, which achieves the scaling successes in Large Language Models by autoregressive modeling. However, continuous AR modeling over visual pixel data suffer from extremely long sequences and high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end generative framework that unifies Normalizing Flows (NF) and Autoregressive (AR) models for tractable likelihood estimation and high-quality image synthesis directly from raw pixels. FARMER employs an invertible autoregressive flow to transform images into latent sequences, whose distribution is modeled implicitly by an autoregressive model. To address the redundancy and complexity in pixel-level modeling, we propose a self-supervised dimension reduction scheme that partitions NF latent channels into informative and redundant groups, enabling more effective and efficient AR modeling. Furthermore, we design a one-step distillation scheme to significantly accelerate inference speed and introduce a resampling-based classifier-free guidance algorithm to boost image generation quality. Extensive experiments demonstrate that FARMER achieves competitive performance compared to existing pixel-based generative models while providing exact likelihoods and scalable training.

FARMER: Transformador de Flujo AutoRegresivo sobre Píxeles

FARMER: Flow AutoRegressive Transformer over Pixels

Resumen

Support