球面リーチ量子化による視覚的トークン化と生成
Spherical Leech Quantization for Visual Tokenization and Generation
December 16, 2025
著者: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI
要旨
非パラメトリック量子化は、パラメータ効率の高さと大規模コードブックへの拡張性から大きな注目を集めている。本論文では、格子符号化の観点から、様々な非パラメトリック量子化手法を統一的な定式化で提示する。格子符号の幾何学的性質を分析することで、BSQのような既存のルックアップフリー量子化手法をオートエンコーダで学習する際に補助損失項が必要となる理由を明らかにする。さらに発展させ、ランダム格子、一般化フィボナッチ格子、最密球充填格子を含むいくつかの候補を探索する。中でも、高い対称性と超球面上の均一分布により、Leech格子に基づく量子化手法(Spherical Leech Quantization, Λ_{24}-SQ)は、学習プロセスの簡素化と再構成-圧縮のトレードオフ改善の両方をもたらすことがわかった。画像トークン化および圧縮タスクにおいて、本量子化手法は従来最高性能であったBSQを、全ての評価指標で再構成品質が優れ、かつわずかに少ないビット消費で上回る。この改善効果は、最先端の自己回帰型画像生成フレームワークにも及ぶ。
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.