JPEG-LM : Les modèles de langage comme générateurs d'images avec des représentations de codec canoniques
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Auteurs: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Résumé
Les travaux récents en génération d'images et de vidéos adoptent de plus en plus l'architecture autoregressive des LLM (modèles de langage de grande taille) en raison de sa généralité et de son intégration potentiellement aisée dans des systèmes multimodaux. L'élément clé de l'application de l'entraînement autoregressif, utilisé en génération de langage, à la génération visuelle est la discrétisation — la représentation de données continues comme les images et les vidéos sous forme de tokens discrets. Les méthodes courantes de discrétisation des images et des vidéos incluent la modélisation des valeurs de pixels bruts, qui sont excessivement longues, ou la quantification vectorielle, qui nécessite un entraînement préalable complexe. Dans ce travail, nous proposons de modéliser directement les images et les vidéos comme des fichiers compressés enregistrés sur des ordinateurs via des codecs standards (par exemple, JPEG, AVC/H.264). En utilisant l'architecture par défaut de Llama sans aucune modification spécifique à la vision, nous pré-entraînons JPEG-LM à partir de zéro pour générer des images (et AVC-LM pour générer des vidéos à titre de preuve de concept), en produisant directement les octets des fichiers compressés aux formats JPEG et AVC. L'évaluation de la génération d'images montre que cette approche simple et directe est plus efficace que la modélisation basée sur les pixels et les bases de référence sophistiquées de quantification vectorielle (notre méthode réduit le FID de 31 %). Notre analyse montre que JPEG-LM présente un avantage particulier par rapport aux modèles de quantification vectorielle dans la génération d'éléments visuels à longue traîne. Globalement, nous démontrons que l'utilisation de représentations de codecs standards peut aider à réduire les barrières entre la génération de langage et la génération visuelle, facilitant ainsi les recherches futures sur les LLM multimodaux langage/image/vidéo.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.Summary
AI-Generated Summary