ChatPaper.aiChatPaper

Quantification Sphérique par Sangsues pour la Tokenisation et la Génération Visuelles

Spherical Leech Quantization for Visual Tokenization and Generation

December 16, 2025
papers.authors: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI

papers.abstract

La quantification non paramétrique a suscité beaucoup d'attention en raison de son efficacité paramétrique et de son extensibilité à de grands dictionnaires. Dans cet article, nous présentons une formulation unifiée des différentes méthodes de quantification non paramétrique à travers le prisme du codage par réseaux. La géométrie des codes en réseau explique la nécessité de termes de perte auxiliaires lors de l'entraînement d'auto-encodeurs avec certaines variantes existantes sans table de consultation comme BSQ. Pour progresser, nous explorons quelques candidats possibles, incluant les réseaux aléatoires, les réseaux de Fibonacci généralisés et les réseaux d'empilement de sphères le plus dense. Parmi ceux-ci, nous constatons que la méthode de quantification basée sur le réseau de Leech, dénommée Spherical Leech Quantization (Λ_{24}-SQ), conduit à la fois à une procédure d'entraînement simplifiée et à un meilleur compromis reconstruction-compression grâce à sa haute symétrie et sa distribution uniforme sur l'hypersphère. Dans les tâches de tokenisation et compression d'images, cette approche de quantification obtient une meilleure qualité de reconstruction sur toutes les métriques que BSQ, l'état de l'art précédent, tout en consommant légèrement moins de bits. L'amélioration s'étend également aux frameworks état de l'art de génération d'images auto-régressifs.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.
PDF62December 18, 2025