JPEG-LM: LLMs als Bildgeneratoren mit kanonischen Codec-Repräsentationen

papers.abstract

In der jüngsten Arbeit zur Bild- und Videogenerierung wird zunehmend die autoregressive LLM-Architektur aufgrund ihrer Allgemeingültigkeit und der potenziell einfachen Integration in multimodale Systeme verwendet. Der Kernpunkt der Anwendung des autoregressiven Trainings in der Sprachgenerierung auf die visuelle Generierung ist die Diskretisierung - die Darstellung kontinuierlicher Daten wie Bilder und Videos als diskrete Tokens. Häufige Methoden zur Diskretisierung von Bildern und Videos umfassen die Modellierung von Rohpixelwerten, die unverhältnismäßig lang sind, oder die Vektorquantisierung, die eine aufwändige Vorphasenschulung erfordert. In dieser Arbeit schlagen wir vor, Bilder und Videos direkt als komprimierte Dateien zu modellieren, die auf Computern über kanonische Codecs (z. B. JPEG, AVC/H.264) gespeichert sind. Unter Verwendung der Standard-LLama-Architektur ohne visionsspezifische Modifikationen, haben wir JPEG-LM von Grund auf vortrainiert, um Bilder zu generieren (und AVC-LM als Proof of Concept zur Generierung von Videos), indem wir direkt komprimierte Dateibytes im JPEG- und AVC-Format ausgeben. Die Auswertung der Bildgenerierung zeigt, dass dieser einfache und geradlinige Ansatz effektiver ist als die modellbasierte Modellierung von Pixeln und ausgefeilte Vektorquantisierungsbasen (auf denen unsere Methode eine 31%ige Reduzierung des FID erzielt). Unsere Analyse zeigt, dass JPEG-LM einen besonderen Vorteil gegenüber Vektorquantisierungsmodellen bei der Generierung von langschwänzigen visuellen Elementen hat. Insgesamt zeigen wir, dass die Verwendung von kanonischen Codec-Repräsentationen dazu beitragen kann, die Barrieren zwischen Sprachgenerierung und visueller Generierung abzubauen und zukünftige Forschung an multimodalen Sprach-/Bild-/Video-LLMs zu erleichtern.

English

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.

JPEG-LM: LLMs als Bildgeneratoren mit kanonischen Codec-Repräsentationen

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

papers.abstract

Support