JPEG-LM: LLMs como Generadores de Imágenes con Representaciones de Códec Canónicas
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Autores: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Resumen
El trabajo reciente en generación de imágenes y videos ha estado adoptando la arquitectura LLM autoregresiva debido a su generalidad y potencialmente fácil integración en sistemas multimodales. La clave para aplicar el entrenamiento autoregresivo en generación de lenguaje a la generación visual es la discretización, que consiste en representar datos continuos como imágenes y videos en tokens discretos. Métodos comunes de discretización de imágenes y videos incluyen modelar los valores de píxeles crudos, que son excesivamente extensos, o la cuantización de vectores, que requiere un entrenamiento previo complicado. En este trabajo, proponemos modelar directamente imágenes y videos como archivos comprimidos guardados en computadoras a través de codecs canónicos (por ejemplo, JPEG, AVC/H.264). Utilizando la arquitectura Llama predeterminada sin modificaciones específicas de visión, preentrenamos JPEG-LM desde cero para generar imágenes (y AVC-LM para generar videos como prueba de concepto), al producir directamente bytes de archivos comprimidos en formatos JPEG y AVC. La evaluación de la generación de imágenes muestra que este enfoque simple y directo es más efectivo que la modelización basada en píxeles y las líneas base de cuantización de vectores sofisticadas (en las cuales nuestro método logra una reducción del 31% en FID). Nuestro análisis muestra que JPEG-LM tiene una ventaja especial sobre los modelos de cuantización de vectores en la generación de elementos visuales de cola larga. En general, demostramos que el uso de representaciones de codecs canónicos puede ayudar a reducir las barreras entre la generación de lenguaje y la generación visual, facilitando la investigación futura sobre LLMs multimodales de lenguaje/imagen/video.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.