자기회귀적 이미지 생성을 위한 웨이블릿만으로 충분하다
Wavelets Are All You Need for Autoregressive Image Generation
June 28, 2024
저자: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
cs.AI
초록
본 논문에서는 두 가지 주요 요소를 기반으로 한 새로운 자기회귀적 이미지 생성 접근법을 제시한다. 첫 번째는 웨이블릿 이미지 코딩으로, 가장 중요한 웨이블릿 계수의 최상위 비트부터 시작하여 정보를 정렬함으로써 이미지의 시각적 세부 사항을 거친 것에서 미세한 것까지 토큰화할 수 있게 한다. 두 번째는 이 '웨이블릿 언어'의 토큰 시퀀스에 맞게 아키텍처를 재설계하고 최적화한 언어 트랜스포머의 변형이다. 이 트랜스포머는 토큰 시퀀스 내의 중요한 통계적 상관관계를 학습하는데, 이는 다양한 해상도에서의 웨이블릿 서브밴드 간의 잘 알려진 상관관계의 표현이다. 우리는 생성 과정에 조건을 부여한 실험 결과를 보여준다.
English
In this paper, we take a new approach to autoregressive image generation that
is based on two main ingredients. The first is wavelet image coding, which
allows to tokenize the visual details of an image from coarse to fine details
by ordering the information starting with the most significant bits of the most
significant wavelet coefficients. The second is a variant of a language
transformer whose architecture is re-designed and optimized for token sequences
in this 'wavelet language'. The transformer learns the significant statistical
correlations within a token sequence, which are the manifestations of
well-known correlations between the wavelet subbands at various resolutions. We
show experimental results with conditioning on the generation process.Summary
AI-Generated Summary