효율적인 시각적 생성을 위한 이웃 자기회귀 모델링
Neighboring Autoregressive Modeling for Efficient Visual Generation
March 12, 2025
저자: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
초록
시각적 자기회귀 모델은 일반적으로 래스터 순서의 "다음 토큰 예측" 패러다임을 따르는데, 이는 시각적 콘텐츠에 내재된 공간적 및 시간적 지역성을 간과합니다. 특히, 시각적 토큰은 멀리 떨어진 토큰들보다 공간적으로나 시간적으로 인접한 토큰들과 훨씬 강한 상관관계를 보입니다. 본 논문에서는 이웃 자기회귀 모델링(Neighboring Autoregressive Modeling, NAR)이라는 새로운 패러다임을 제안합니다. 이는 자기회귀적 시각 생성 작업을 근처에서 먼 곳으로 진행되는 "다음 이웃 예측" 메커니즘을 따르는 점진적인 아웃페인팅 과정으로 공식화합니다. 초기 토큰에서 시작하여, 나머지 토큰들은 공간-시간 공간에서 초기 토큰으로부터의 맨해튼 거리가 작은 순서대로 디코딩되며, 디코딩된 영역의 경계를 점진적으로 확장합니다. 공간-시간 공간에서 여러 인접 토큰을 병렬로 예측하기 위해, 우리는 상호 직교하는 차원을 따라 다음 토큰을 예측하는 차원 지향 디코딩 헤드 세트를 도입했습니다. 추론 과정에서는 디코딩된 토큰들에 인접한 모든 토큰들이 병렬로 처리되어, 생성에 필요한 모델 순전파 단계를 크게 줄입니다. ImageNet256×256과 UCF101에서의 실험 결과, NAR은 각각 2.4배와 8.6배 더 높은 처리량을 달성하면서도 PAR-4X 접근법에 비해 이미지 및 비디오 생성 작업에서 우수한 FID/FVD 점수를 얻었습니다. 텍스트-이미지 생성 벤치마크 GenEval에서 평가할 때, 0.8B 파라미터를 가진 NAR은 Chameleon-7B를 능가하면서도 단지 0.4배의 학습 데이터만을 사용했습니다. 코드는 https://github.com/ThisisBillhe/NAR에서 확인할 수 있습니다.
English
Visual autoregressive models typically adhere to a raster-order ``next-token
prediction" paradigm, which overlooks the spatial and temporal locality
inherent in visual content. Specifically, visual tokens exhibit significantly
stronger correlations with their spatially or temporally adjacent tokens
compared to those that are distant. In this paper, we propose Neighboring
Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive
visual generation as a progressive outpainting procedure, following a
near-to-far ``next-neighbor prediction" mechanism. Starting from an initial
token, the remaining tokens are decoded in ascending order of their Manhattan
distance from the initial token in the spatial-temporal space, progressively
expanding the boundary of the decoded region. To enable parallel prediction of
multiple adjacent tokens in the spatial-temporal space, we introduce a set of
dimension-oriented decoding heads, each predicting the next token along a
mutually orthogonal dimension. During inference, all tokens adjacent to the
decoded tokens are processed in parallel, substantially reducing the model
forward steps for generation. Experiments on ImageNet256times 256 and UCF101
demonstrate that NAR achieves 2.4times and 8.6times higher throughput
respectively, while obtaining superior FID/FVD scores for both image and video
generation tasks compared to the PAR-4X approach. When evaluating on
text-to-image generation benchmark GenEval, NAR with 0.8B parameters
outperforms Chameleon-7B while using merely 0.4 of the training data. Code is
available at https://github.com/ThisisBillhe/NAR.Summary
AI-Generated Summary