전이: 다음 토큰 예측 및 이미지 확산을 하나의 다중 모달 모델로 수행하기
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
August 20, 2024
저자: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
cs.AI
초록
우리는 이산 및 연속 데이터에 대해 다중 모달 모델을 훈련시키는 레시피인 Transfusion을 소개합니다. Transfusion은 언어 모델링 손실 함수(다음 토큰 예측)를 확산과 결합하여 혼합 모달 시퀀스 상의 단일 트랜스포머를 훈련시킵니다. 우리는 텍스트와 이미지 데이터의 혼합물에 대해 7B 파라미터까지 여러 Transfusion 모델을 처음부터 사전 훈련하여, 다양한 단일 및 교모달 벤치마크에 대한 스케일링 법칙을 수립합니다. 실험 결과, Transfusion이 이미지 양자화 및 이산 이미지 토큰에 대한 언어 모델 훈련보다 훨씬 효과적으로 스케일링되는 것을 보여줍니다. 모달리티별 인코딩 및 디코딩 레이어를 도입함으로써 Transfusion 모델의 성능을 더욱 향상시킬 수 있으며, 심지어 각 이미지를 단지 16개 패치로 압축할 수 있습니다. 또한, 7B 파라미터 및 2T 다중 모달 토큰에 대한 Transfusion 레시피의 스케일링을 통해, 유사한 규모의 확산 모델 및 언어 모델과 유사한 수준의 이미지 및 텍스트 생성이 가능한 모델을 만들어냄으로써 양쪽 세계의 혜택을 누릴 수 있음을 더 자세히 보여줍니다.
English
We introduce Transfusion, a recipe for training a multi-modal model over
discrete and continuous data. Transfusion combines the language modeling loss
function (next token prediction) with diffusion to train a single transformer
over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B
parameters from scratch on a mixture of text and image data, establishing
scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our
experiments show that Transfusion scales significantly better than quantizing
images and training a language model over discrete image tokens. By introducing
modality-specific encoding and decoding layers, we can further improve the
performance of Transfusion models, and even compress each image to just 16
patches. We further demonstrate that scaling our Transfusion recipe to 7B
parameters and 2T multi-modal tokens produces a model that can generate images
and text on a par with similar scale diffusion models and language models,
reaping the benefits of both worlds.Summary
AI-Generated Summary