Sphärische Blutegel-Quantisierung für visuelle Tokenisierung und Generierung
Spherical Leech Quantization for Visual Tokenization and Generation
December 16, 2025
papers.authors: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI
papers.abstract
Non-parametrische Quantisierung hat aufgrund ihrer Effizienz in Bezug auf Parameter und ihrer Skalierbarkeit auf große Codebücher viel Aufmerksamkeit erhalten. In diesem Artikel stellen wir eine einheitliche Formulierung verschiedener nicht-parametrischer Quantisierungsmethoden durch die Linse der Gittercodierung vor. Die Geometrie von Gittercodes erklärt die Notwendigkeit von Hilfsverlusttermen beim Training von Autoencodern mit bestimmten vorhandenen lookup-freien Quantisierungsvarianten wie BSQ. Als Weiterentwicklung untersuchen wir einige mögliche Kandidaten, darunter Zufallsgitter, verallgemeinerte Fibonacci-Gitter und Gitter mit der dichtesten Kugelpackung. Dabei stellen wir fest, dass die auf dem Leech-Gitter basierende Quantisierungsmethode, die als Spherical Leech Quantization (Λ_{24}-SQ) bezeichnet wird, dank ihrer hohen Symmetrie und gleichmäßigen Verteilung auf der Hyperkugel sowohl zu einem vereinfachten Trainingsverfahren als auch zu einem verbesserten Kompromiss zwischen Rekonstruktion und Kompression führt. Bei Aufgaben zur Bildtokenisierung und -kompression erreicht dieser Quantisierungsansatz in allen Metriken eine bessere Rekonstruktionsqualität als BSQ, dem bisher besten Stand der Technik, bei gleichzeitig geringfügig geringerem Bitverbrauch. Die Verbesserung erstreckt sich auch auf modernste autoregressive Bildgenerierungsframeworks.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.