JPEG-LM: Modelli Linguistici come Generatori di Immagini con Rappresentazioni di Codec Canonici
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Autori: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Abstract
I lavori recenti nella generazione di immagini e video hanno adottato l'architettura autoregressiva dei LLM (Large Language Models) grazie alla sua generalità e alla potenziale facilità di integrazione in sistemi multi-modali. Il punto cruciale nell'applicare l'addestramento autoregressivo, tipico della generazione di linguaggio, alla generazione visiva è la discretizzazione, ovvero la rappresentazione di dati continui come immagini e video come token discreti. I metodi comuni per discretizzare immagini e video includono la modellazione dei valori grezzi dei pixel, che risultano eccessivamente lunghi, o la quantizzazione vettoriale, che richiede un complesso addestramento preliminare. In questo lavoro, proponiamo di modellare direttamente immagini e video come file compressi salvati su computer tramite codec canonici (ad esempio, JPEG, AVC/H.264). Utilizzando l'architettura predefinita di Llama senza alcuna modifica specifica per la visione, abbiamo pre-addestrato JPEG-LM da zero per generare immagini (e AVC-LM per generare video come prova di concetto), producendo direttamente byte di file compressi nei formati JPEG e AVC. La valutazione della generazione di immagini dimostra che questo approccio semplice e diretto è più efficace rispetto alla modellazione basata sui pixel e ai sofisticati baseline di quantizzazione vettoriale (con una riduzione del 31% nell'FID rispetto al nostro metodo). La nostra analisi mostra che JPEG-LM ha un vantaggio particolare rispetto ai modelli di quantizzazione vettoriale nella generazione di elementi visivi a coda lunga. Nel complesso, dimostriamo che l'uso di rappresentazioni basate su codec canonici può aiutare ad abbattere le barriere tra la generazione di linguaggio e la generazione visiva, facilitando future ricerche su LLM multi-modali per linguaggio/immagini/video.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.Summary
AI-Generated Summary