JPEG-LM: LLM в качестве генераторов изображений с каноническими представлениями кодека

Аннотация

В недавних исследованиях по генерации изображений и видео широко применяется авторегрессивная архитектура LLM из-за ее универсальности и потенциальной легкости интеграции в мультимодальные системы. Основное применение авторегрессивного обучения в генерации текста к генерации визуальных данных связано с дискретизацией - представлением непрерывных данных, таких как изображения и видео, в виде дискретных токенов. Распространенные методы дискретизации изображений и видео включают моделирование сырых значений пикселей, которые являются чрезмерно длинными, или векторное квантование, требующее сложного предварительного обучения. В данной работе мы предлагаем непосредственно моделировать изображения и видео как сжатые файлы, сохраненные на компьютерах с использованием канонических кодеков (например, JPEG, AVC/H.264). Используя стандартную архитектуру Llama без каких-либо специфических модификаций для зрительных данных, мы предварительно обучаем JPEG-LM с нуля для генерации изображений (и AVC-LM для генерации видео в качестве доказательства концепции), напрямую выводя сжатые байты файлов в форматах JPEG и AVC. Оценка генерации изображений показывает, что этот простой и прямолинейный подход эффективнее моделирования на основе пикселей и сложных базовых моделей векторного квантования (на которых наш метод дает снижение FID на 31%). Наш анализ показывает, что у JPEG-LM есть особое преимущество перед моделями векторного квантования в генерации элементов с длинным хвостом. В целом, мы показываем, что использование канонических кодеков может помочь снизить барьеры между генерацией текста и визуальной генерацией, облегчая будущие исследования мультимодальных LLM для языка/изображений/видео.

English

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.

JPEG-LM: LLM в качестве генераторов изображений с каноническими представлениями кодека

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Аннотация

Support