ChatPaper.aiChatPaper

Sferische Bloedzuiger-Kwantisering voor Visuele Tokenisatie en Generatie

Spherical Leech Quantization for Visual Tokenization and Generation

December 16, 2025
Auteurs: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI

Samenvatting

Niet-parametrische kwantisatie heeft veel aandacht gekregen vanwege zijn efficiëntie wat betreft parameters en schaalbaarheid naar een grote codeboek. In dit artikel presenteren we een geünificeerde formulering van verschillende niet-parametrische kwantisatiemethoden door de lens van lattice-codering. De geometrie van lattice-codes verklaart de noodzaak van aanvullende verliestermen bij het trainen van auto-encoders met bepaalde bestaande lookup-vrije kwantisatievarianten zoals BSQ. Als vervolgstap verkennen we een aantal mogelijke kandidaten, waaronder willekeurige roosters, gegeneraliseerde Fibonacci-roosters en roosters met de dichtste bollenstapeling. Van allemaal concluderen we dat de op het Leech-rooster gebaseerde kwantisationmethode, die we Spherical Leech Quantization (Λ_{24}-SQ) noemen, leidt tot zowel een vereenvoudigd trainingsproces als een verbeterde reconstructie-compressie-afweging dankzij zijn hoge symmetrie en gelijkmatige verdeling op de hyperbol. Bij beeldtokenisatie- en compressietaken bereikt deze kwantisatiebenadering een betere reconstructiekwaliteit volgens alle metrieken dan BSQ, de beste bestaande methode, terwijl er iets minder bits worden verbruikt. De verbetering strekt zich ook uit naar state-of-the-art autoregressieve beeldgeneratieframeworks.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.
PDF62December 18, 2025