ChatPaper.aiChatPaper

Cuantización Esférica de Sanguijuelas para Tokenización y Generación Visual

Spherical Leech Quantization for Visual Tokenization and Generation

December 16, 2025
Autores: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI

Resumen

La cuantización no paramétrica ha recibido mucha atención debido a su eficiencia en parámetros y escalabilidad a libros de códigos grandes. En este artículo, presentamos una formulación unificada de diferentes métodos de cuantización no paramétricos a través de la lente de la codificación de retículos. La geometría de los códigos de retículo explica la necesidad de términos de pérdida auxiliares al entrenar auto-codificadores con ciertas variantes libres de búsqueda existentes, como BSQ. Como un paso adelante, exploramos algunos candidatos posibles, incluyendo retículos aleatorios, retículos generalizados de Fibonacci y retículos de empaquetamiento de esferas más denso. Entre todos, encontramos que el método de cuantización basado en el retículo de Leech, denominado Cuantización Esférica de Leech (Λ_{24}-SQ), conduce tanto a una receta de entrenamiento simplificada como a una mejora en la compensación reconstrucción-compresión, gracias a su alta simetría y distribución uniforme en la hiperesfera. En tareas de tokenización y compresión de imágenes, este enfoque de cuantización logra una mejor calidad de reconstrucción en todas las métricas que BSQ, el mejor arte previo, mientras consume ligeramente menos bits. La mejora también se extiende a los marcos de generación de imágenes auto-regresivos de última generación.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.
PDF62December 18, 2025