JPEG-LM: LLMs como Geradores de Imagens com Representações Canônicas de Codec

Resumo

Trabalhos recentes em geração de imagens e vídeos têm adotado a arquitetura LLM autoregressiva devido à sua generalidade e potencialmente fácil integração em sistemas multimodais. O cerne da aplicação do treinamento autoregressivo na geração de linguagem para a geração visual é a discretização - representando dados contínuos como imagens e vídeos em tokens discretos. Métodos comuns de discretização de imagens e vídeos incluem modelagem de valores de pixels brutos, que são excessivamente longos, ou quantização de vetores, que requer treinamento prévio complicado. Neste trabalho, propomos modelar diretamente imagens e vídeos como arquivos comprimidos salvos em computadores via codecs canônicos (por exemplo, JPEG, AVC/H.264). Utilizando a arquitetura Llama padrão sem modificações específicas de visão, pré-treinamos o JPEG-LM do zero para gerar imagens (e AVC-LM para gerar vídeos como prova de conceito), ao produzir diretamente bytes de arquivo comprimido nos formatos JPEG e AVC. A avaliação da geração de imagens mostra que essa abordagem simples e direta é mais eficaz do que a modelagem baseada em pixels e as baselines sofisticadas de quantização de vetores (nas quais nosso método resulta em uma redução de 31% no FID). Nossa análise mostra que o JPEG-LM tem uma vantagem especial sobre modelos de quantização de vetores na geração de elementos visuais de cauda longa. No geral, demonstramos que o uso de representações de codecs canônicos pode ajudar a reduzir as barreiras entre a geração de linguagem e a geração visual, facilitando pesquisas futuras em LLMs multimodais de linguagem/imagem/vídeo.

English

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.

JPEG-LM: LLMs como Geradores de Imagens com Representações Canônicas de Codec

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Resumo

Summary

Support

Support