Quantizzazione Sferica a Sanguisuga per la Tokenizzazione e Generazione Visiva
Spherical Leech Quantization for Visual Tokenization and Generation
December 16, 2025
Autori: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI
Abstract
La quantizzazione non parametrica ha ricevuto notevole attenzione grazie alla sua efficienza in termini di parametri e alla sua scalabilità con codebook di grandi dimensioni. In questo articolo, presentiamo una formulazione unificata di diversi metodi di quantizzazione non parametrica attraverso la lente della codifica a reticolo. La geometria dei codici a reticolo spiega la necessità di termini di perdita ausiliari durante l'addestramento di autoencoder con alcune varianti esistenti di quantizzazione senza tabella di ricerca, come BSQ. Come passo avanti, esploriamo alcuni possibili candidati, inclusi reticoli casuali, reticoli generalizzati di Fibonacci e reticoli di impacchettamento di sfere più denso. Tra tutti, abbiamo riscontrato che il metodo di quantizzazione basato sul reticolo di Leech, denominato Spherical Leech Quantization (Λ_{24}-SQ), porta sia a una procedura di addestramento semplificata sia a un miglior compromesso ricompressione-ricostruzione grazie alla sua elevata simmetria e distribuzione uniforme sull'ipersfera. In compiti di tokenizzazione e compressione di immagini, questo approccio di quantizzazione raggiunge una qualità di ricostruzione migliore in tutte le metriche rispetto a BSQ, il miglior stato dell'arte precedente, consumando leggermente meno bit. Il miglioramento si estende anche a framework all'avanguardia per la generazione autoregressiva di immagini.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.