JPEG-LM: LLMs를 이미지 생성기로 사용하는 것과 정규 코덱 표현
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
저자: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
초록
최근 이미지 및 비디오 생성 분야에서는 일반성과 다중 모달 시스템에 쉽게 통합될 수 있는 잠재적인 이점으로 인해 자기 회귀 LLM 아키텍처를 채택해왔습니다. 언어 생성에 대한 자기 회귀 학습을 시각적 생성에 적용하는 핵심은 이산화입니다. 즉, 이미지와 비디오와 같은 연속 데이터를 이산 토큰으로 표현하는 것입니다. 이미지와 비디오를 이산화하는 일반적인 방법에는 길이가 지나치게 긴 원시 픽셀 값 모델링이 포함되거나, 복잡한 사전 훈련이 필요한 벡터 양자화가 포함됩니다. 본 연구에서는 이미지와 비디오를 JPEG, AVC/H.264 등의 규범적 코덱을 통해 컴퓨터에 저장된 압축 파일로 직접 모델링하는 것을 제안합니다. 언어 생성에 대한 기본 Llama 아키텍처를 사용하여 어떠한 시각적 특정 수정도 없이 JPEG-LM을 처음부터 사전 훈련하여 이미지를 생성하고 (컨셉 증명을 위해 비디오를 생성하기 위해 AVC-LM을 사용), JPEG 및 AVC 형식의 압축 파일 바이트를 직접 출력합니다. 이미지 생성의 평가 결과, 이 간단하고 직관적인 방법이 픽셀 기반 모델링 및 복잡한 벡터 양자화 기준보다 효과적임을 보여주었으며 (우리의 방법은 FID에서 31% 감소를 보임), JPEG-LM이 장기적 시각적 요소를 생성하는 데 벡터 양자화 모델에 비해 특별한 장점을 가지고 있음을 분석 결과로 보여주었습니다. 전반적으로, 규범적 코덱 표현을 사용하면 언어 생성과 시각 생성 사이의 장벽을 줄이고, 다중 모달 언어/이미지/비디오 LLM에 대한 미래 연구를 용이하게 할 수 있다는 것을 보여줍니다.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.Summary
AI-Generated Summary