JPEG-LM: LLMs como Geradores de Imagens com Representações Canônicas de Codec
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Autores: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Resumo
Trabalhos recentes em geração de imagens e vídeos têm adotado a arquitetura LLM autoregressiva devido à sua generalidade e potencialmente fácil integração em sistemas multimodais. O cerne da aplicação do treinamento autoregressivo na geração de linguagem para a geração visual é a discretização - representando dados contínuos como imagens e vídeos em tokens discretos. Métodos comuns de discretização de imagens e vídeos incluem modelagem de valores de pixels brutos, que são excessivamente longos, ou quantização de vetores, que requer treinamento prévio complicado. Neste trabalho, propomos modelar diretamente imagens e vídeos como arquivos comprimidos salvos em computadores via codecs canônicos (por exemplo, JPEG, AVC/H.264). Utilizando a arquitetura Llama padrão sem modificações específicas de visão, pré-treinamos o JPEG-LM do zero para gerar imagens (e AVC-LM para gerar vídeos como prova de conceito), ao produzir diretamente bytes de arquivo comprimido nos formatos JPEG e AVC. A avaliação da geração de imagens mostra que essa abordagem simples e direta é mais eficaz do que a modelagem baseada em pixels e as baselines sofisticadas de quantização de vetores (nas quais nosso método resulta em uma redução de 31% no FID). Nossa análise mostra que o JPEG-LM tem uma vantagem especial sobre modelos de quantização de vetores na geração de elementos visuais de cauda longa. No geral, demonstramos que o uso de representações de codecs canônicos pode ajudar a reduzir as barreiras entre a geração de linguagem e a geração visual, facilitando pesquisas futuras em LLMs multimodais de linguagem/imagem/vídeo.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.Summary
AI-Generated Summary