JPEG-LM: LLM's als beeldgeneratoren met canonieke codec-representaties
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
August 15, 2024
Auteurs: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
cs.AI
Samenvatting
Recent werk op het gebied van beeld- en videogeneratie heeft zich gericht op het gebruik van de autoregressieve LLM-architectuur vanwege de algemene toepasbaarheid en de potentiële eenvoudige integratie in multimodale systemen. De kern van het toepassen van autoregressieve training in taalgeneratie op visuele generatie is discretisatie – het representeren van continue data zoals afbeeldingen en video's als discrete tokens. Gangbare methoden voor het discretiseren van afbeeldingen en video's omvatten het modelleren van ruwe pixelwaarden, die onpraktisch lang zijn, of vectorquantisatie, die ingewikkelde voorafgaande training vereist. In dit werk stellen we voor om afbeeldingen en video's direct te modelleren als gecomprimeerde bestanden die op computers zijn opgeslagen via standaard codecs (bijv. JPEG, AVC/H.264). Met behulp van de standaard Llama-architectuur zonder visiespecifieke aanpassingen, pretrainen we JPEG-LM vanaf nul om afbeeldingen te genereren (en AVC-LM om video's te genereren als proof of concept), door direct gecomprimeerde bestandsbytes in JPEG- en AVC-formaten uit te voeren. Evaluatie van beeldgeneratie toont aan dat deze eenvoudige en rechtstreekse aanpak effectiever is dan pixelgebaseerd modelleren en geavanceerde vectorquantisatie-baselines (waarbij onze methode een reductie van 31% in FID oplevert). Onze analyse laat zien dat JPEG-LM een speciaal voordeel heeft ten opzichte van vectorquantisatiemodellen bij het genereren van visuele elementen uit de lange staart. Over het algemeen tonen we aan dat het gebruik van standaard codec-representaties de barrières tussen taalgeneratie en visuele generatie kan verlagen, wat toekomstig onderzoek naar multimodale taal/beeld/video-LLM's vergemakkelijkt.
English
Recent work in image and video generation has been adopting the
autoregressive LLM architecture due to its generality and potentially easy
integration into multi-modal systems. The crux of applying autoregressive
training in language generation to visual generation is discretization --
representing continuous data like images and videos as discrete tokens. Common
methods of discretizing images and videos include modeling raw pixel values,
which are prohibitively lengthy, or vector quantization, which requires
convoluted pre-hoc training. In this work, we propose to directly model images
and videos as compressed files saved on computers via canonical codecs (e.g.,
JPEG, AVC/H.264). Using the default Llama architecture without any
vision-specific modifications, we pretrain JPEG-LM from scratch to generate
images (and AVC-LM to generate videos as a proof of concept), by directly
outputting compressed file bytes in JPEG and AVC formats. Evaluation of image
generation shows that this simple and straightforward approach is more
effective than pixel-based modeling and sophisticated vector quantization
baselines (on which our method yields a 31% reduction in FID). Our analysis
shows that JPEG-LM has an especial advantage over vector quantization models in
generating long-tail visual elements. Overall, we show that using canonical
codec representations can help lower the barriers between language generation
and visual generation, facilitating future research on multi-modal
language/image/video LLMs.