Квантование конечных скаляров: упрощённый подход к VQ-VAE
Finite Scalar Quantization: VQ-VAE Made Simple
September 27, 2023
Авторы: Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen
cs.AI
Аннотация
Мы предлагаем заменить векторное квантование (VQ) в латентном представлении VQ-VAE на простую схему, называемую конечным скалярным квантованием (FSQ), в которой мы проецируем представление VAE на несколько измерений (обычно менее 10). Каждое измерение квантуется на небольшой набор фиксированных значений, что приводит к (неявному) кодовому словарю, заданному произведением этих наборов. Путем соответствующего выбора количества измерений и значений, которые может принимать каждое измерение, мы получаем тот же размер кодового словаря, что и в VQ. На основе таких дискретных представлений мы можем обучать те же модели, которые обучались на представлениях VQ-VAE. Например, авторегрессивные и маскированные трансформеры для генерации изображений, мультимодальной генерации и задач компьютерного зрения, связанных с плотным предсказанием. Конкретно, мы применяем FSQ с MaskGIT для генерации изображений и с UViM для оценки глубины, раскрашивания и панорамной сегментации. Несмотря на гораздо более простую конструкцию FSQ, мы достигаем конкурентоспособной производительности во всех этих задачах. Мы подчеркиваем, что FSQ не страдает от коллапса кодового словаря и не требует сложных механизмов, используемых в VQ (потери привязки, повторное заполнение кодового словаря, разделение кодов, энтропийные штрафы и т.д.), для обучения выразительным дискретным представлениям.
English
We propose to replace vector quantization (VQ) in the latent representation
of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where
we project the VAE representation down to a few dimensions (typically less than
10). Each dimension is quantized to a small set of fixed values, leading to an
(implicit) codebook given by the product of these sets. By appropriately
choosing the number of dimensions and values each dimension can take, we obtain
the same codebook size as in VQ. On top of such discrete representations, we
can train the same models that have been trained on VQ-VAE representations. For
example, autoregressive and masked transformer models for image generation,
multimodal generation, and dense prediction computer vision tasks. Concretely,
we employ FSQ with MaskGIT for image generation, and with UViM for depth
estimation, colorization, and panoptic segmentation. Despite the much simpler
design of FSQ, we obtain competitive performance in all these tasks. We
emphasize that FSQ does not suffer from codebook collapse and does not need the
complex machinery employed in VQ (commitment losses, codebook reseeding, code
splitting, entropy penalties, etc.) to learn expressive discrete
representations.