FARMER: ピクセル上のフロー自己回帰型トランスフォーマー
FARMER: Flow AutoRegressive Transformer over Pixels
October 27, 2025
著者: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI
要旨
生データ分布の明示的な尤度を直接モデル化することは、機械学習分野における重要なテーマであり、自己回帰モデリングによって大規模言語モデルにおいてスケーリングの成功を収めています。しかし、視覚的ピクセルデータに対する連続的な自己回帰モデリングは、極めて長い系列と高次元空間という課題に直面しています。本論文では、正規化フローと自己回帰モデルを統合した新しい end-to-end 生成フレームワークである FARMER を提案します。このフレームワークは、扱いやすい尤度推定と高品質な画像合成を生ピクセルから直接実現します。FARMER は可逆的な自己回帰フローを用いて画像を潜在系列に変換し、その分布は自己回帰モデルによって暗黙的にモデル化されます。ピクセルレベルでのモデリングにおける冗長性と複雑さに対処するため、NF 潜在チャネルを情報性の高いグループと冗長なグループに分割する自己教師あり次元削減手法を提案し、より効果的かつ効率的な自己回帰モデリングを可能にします。さらに、推論速度を大幅に加速するワンステップ蒸留手法を設計し、画像生成品質を向上させるリサンプリングベースの classifier-free guidance アルゴリズムを導入します。大規模な実験により、FARMER が正確な尤度計算とスケーラブルな学習を提供しながら、既存のピクセルベース生成モデルと競合する性能を達成することを実証します。
English
Directly modeling the explicit likelihood of the raw data distribution is key
topic in the machine learning area, which achieves the scaling successes in
Large Language Models by autoregressive modeling. However, continuous AR
modeling over visual pixel data suffer from extremely long sequences and
high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end
generative framework that unifies Normalizing Flows (NF) and Autoregressive
(AR) models for tractable likelihood estimation and high-quality image
synthesis directly from raw pixels. FARMER employs an invertible autoregressive
flow to transform images into latent sequences, whose distribution is modeled
implicitly by an autoregressive model. To address the redundancy and complexity
in pixel-level modeling, we propose a self-supervised dimension reduction
scheme that partitions NF latent channels into informative and redundant
groups, enabling more effective and efficient AR modeling. Furthermore, we
design a one-step distillation scheme to significantly accelerate inference
speed and introduce a resampling-based classifier-free guidance algorithm to
boost image generation quality. Extensive experiments demonstrate that FARMER
achieves competitive performance compared to existing pixel-based generative
models while providing exact likelihoods and scalable training.