Сферическая квантовая квантификация для визуальной токенизации и генерации
Spherical Leech Quantization for Visual Tokenization and Generation
December 16, 2025
Авторы: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI
Аннотация
Непараметрическое квантование привлекает значительное внимание благодаря своей параметрической эффективности и масштабируемости для больших кодбуков. В данной статье мы предлагаем единую формулировку различных методов непараметрического квантования через призму теории решётчатых кодов. Геометрия решётчатых кодов объясняет необходимость вспомогательных функций потерь при обучении автокодировщиков с некоторыми существующими вариантами квантования без таблиц поиска, такими как BSQ. В качестве дальнейшего шага мы исследуем несколько возможных кандидатов, включая случайные решётки, обобщённые решётки Фибоначчи и решётки с наиболее плотной упаковкой сфер. Среди них мы обнаружили, что метод квантования на основе решётки Лича, названный Сферическим Квантованием Лича (Λ_{24}-SQ), благодаря своей высокой симметрии и равномерному распределению на гиперсфере, приводит как к упрощённой процедуре обучения, так и к улучшенному компромиссу между реконструкцией и сжатием. В задачах токенизации и сжатия изображений данный подход квантования демонстрирует лучшее качество реконструкции по всем метрикам по сравнению с BSQ — лучшим существующим методом, — потребляя при этом немного меньше бит. Улучшение также распространяется на современные авторегрессивные фреймворки генерации изображений.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.