Open-MAGVIT2: 자율주행 시각 생성을 민주화하기 위한 오픈소스 프로젝트
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
저자: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
초록
우리는 300M에서 1.5B로 이어지는 자기 회귀 이미지 생성 모델 패밀리인 Open-MAGVIT2를 제시합니다. Open-MAGVIT2 프로젝트는 Google의 MAGVIT-v2 토크나이저의 오픈 소스 복제본을 생산하며, 이 토크나이저는 초대형 코드북(즉, 2^{18} 코드)을 갖추고 있으며 ImageNet 256x256에서 최첨단 재구성 성능(1.17 rFID)을 달성합니다. 더불어, 우리는 이를 일반 자기 회귀 모델에 적용하고 확장성 특성을 검증합니다. 초대형 어휘를 예측하는 자기 회귀 모델을 지원하기 위해 우리는 비대칭 토큰 인수분해를 통해 두 가지 크기의 하위 어휘로 분해하고, 더 나은 생성 품질을 위해 하위 토큰 상호 작용을 강화하기 위해 "다음 하위 토큰 예측"을 도입합니다. 우리는 시각적 자기 회귀 생성 분야에서 혁신과 창의성을 촉진하기 위해 모든 모델과 코드를 공개합니다.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary