FARMER: 픽셀 기반 흐름 자기회귀 변환기
FARMER: Flow AutoRegressive Transformer over Pixels
October 27, 2025
저자: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
cs.AI
초록
원시 데이터 분포의 명시적 가능도를 직접 모델링하는 것은 기계 학습 분야의 핵심 주제로, 자기회귀 모델링을 통해 대규모 언어 모델에서 확장적 성공을 거두었습니다. 그러나 시각적 픽셀 데이터에 대한 연속적 자기회귀 모델링은 극단적으로 긴 시퀀스와 고차원 공간 문제에 직면합니다. 본 논문에서는 원시 픽셀로부터 직접 추정 가능한 가능도와 고품질 이미지 생성을 위해 정규화 흐름과 자기회귀 모델을 통합한 새로운 종단간 생성 프레임워크인 FARMER를 제안합니다. FARMER는 가역적 자기회귀 흐름을 통해 이미지를 잠재 시퀀스로 변환하며, 이 시퀀스의 분포는 자기회귀 모델에 의해 암묵적으로 모델링됩니다. 픽셀 수준 모델링의 중복성과 복잡성을 해결하기 위해 NF 잠재 채널을 정보적 그룹과 잉여 그룹으로 분할하는 자기 지도 차원 축소 기법을 제안하여 더 효과적이고 효율적인 AR 모델링을 가능하게 합니다. 더 나아가 추론 속도를 획기적으로 가속화하는 일단계 지식 증류 기법과 이미지 생성 품질을 향상시키는 리샘플링 기반 classifier-free guidance 알고리즘을 설계했습니다. 광범위한 실험을 통해 FARMER가 정확한 가능도 추정과 확장 가능한 훈련을 제공하면서도 기존 픽셀 기반 생성 모델 대비 경쟁력 있는 성능을 달성함을 입증했습니다.
English
Directly modeling the explicit likelihood of the raw data distribution is key
topic in the machine learning area, which achieves the scaling successes in
Large Language Models by autoregressive modeling. However, continuous AR
modeling over visual pixel data suffer from extremely long sequences and
high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end
generative framework that unifies Normalizing Flows (NF) and Autoregressive
(AR) models for tractable likelihood estimation and high-quality image
synthesis directly from raw pixels. FARMER employs an invertible autoregressive
flow to transform images into latent sequences, whose distribution is modeled
implicitly by an autoregressive model. To address the redundancy and complexity
in pixel-level modeling, we propose a self-supervised dimension reduction
scheme that partitions NF latent channels into informative and redundant
groups, enabling more effective and efficient AR modeling. Furthermore, we
design a one-step distillation scheme to significantly accelerate inference
speed and introduce a resampling-based classifier-free guidance algorithm to
boost image generation quality. Extensive experiments demonstrate that FARMER
achieves competitive performance compared to existing pixel-based generative
models while providing exact likelihoods and scalable training.