JPEG-LM: LLMs als Bildgeneratoren mit kanonischen Codec-Repräsentationen
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Autoren: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Zusammenfassung
In der jüngsten Arbeit zur Bild- und Videogenerierung wird zunehmend die autoregressive LLM-Architektur aufgrund ihrer Allgemeingültigkeit und der potenziell einfachen Integration in multimodale Systeme verwendet. Der Kernpunkt der Anwendung des autoregressiven Trainings in der Sprachgenerierung auf die visuelle Generierung ist die Diskretisierung - die Darstellung kontinuierlicher Daten wie Bilder und Videos als diskrete Tokens. Häufige Methoden zur Diskretisierung von Bildern und Videos umfassen die Modellierung von Rohpixelwerten, die unverhältnismäßig lang sind, oder die Vektorquantisierung, die eine aufwändige Vorphasenschulung erfordert. In dieser Arbeit schlagen wir vor, Bilder und Videos direkt als komprimierte Dateien zu modellieren, die auf Computern über kanonische Codecs (z. B. JPEG, AVC/H.264) gespeichert sind. Unter Verwendung der Standard-LLama-Architektur ohne visionsspezifische Modifikationen, haben wir JPEG-LM von Grund auf vortrainiert, um Bilder zu generieren (und AVC-LM als Proof of Concept zur Generierung von Videos), indem wir direkt komprimierte Dateibytes im JPEG- und AVC-Format ausgeben. Die Auswertung der Bildgenerierung zeigt, dass dieser einfache und geradlinige Ansatz effektiver ist als die modellbasierte Modellierung von Pixeln und ausgefeilte Vektorquantisierungsbasen (auf denen unsere Methode eine 31%ige Reduzierung des FID erzielt). Unsere Analyse zeigt, dass JPEG-LM einen besonderen Vorteil gegenüber Vektorquantisierungsmodellen bei der Generierung von langschwänzigen visuellen Elementen hat. Insgesamt zeigen wir, dass die Verwendung von kanonischen Codec-Repräsentationen dazu beitragen kann, die Barrieren zwischen Sprachgenerierung und visueller Generierung abzubauen und zukünftige Forschung an multimodalen Sprach-/Bild-/Video-LLMs zu erleichtern.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.Summary
AI-Generated Summary