Quantização Esférica de Sanguessugas para Tokenização e Geração Visual

Resumo

A quantização não paramétrica tem recebido muita atenção devido à sua eficiência em parâmetros e escalabilidade para um codebook grande. Neste artigo, apresentamos uma formulação unificada de diferentes métodos de quantização não paramétrica através da lente da codificação de reticulados. A geometria dos códigos de reticulado explica a necessidade de termos de perda auxiliares ao treinar auto-codificadores com certas variantes de quantização sem consulta existentes, como a BSQ. Como um passo à frente, exploramos alguns possíveis candidatos, incluindo reticulados aleatórios, reticulados generalizados de Fibonacci e reticulados de empacotamento de esferas mais denso. Entre todos, descobrimos que o método de quantização baseado no reticulado de Leech, denominado Quantização Esférica de Leech (Λ_{24}-SQ), resulta tanto em uma receita de treinamento simplificada quanto em um melhor compromisso reconstrução-compressão, graças à sua alta simetria e distribuição uniforme na hiperesfera. Em tarefas de tokenização e compressão de imagens, esta abordagem de quantização alcança melhor qualidade de reconstrução em todas as métricas do que a BSQ, o melhor estado da arte anterior, enquanto consome ligeiramente menos bits. A melhoria também se estende a frameworks de geração de imagens auto-regressivos de última geração.

English

Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.