구형 거머리 양자화를 활용한 시각적 토큰화 및 생성
Spherical Leech Quantization for Visual Tokenization and Generation
December 16, 2025
저자: Yue Zhao, Hanwen Jiang, Zhenlin Xu, Chutong Yang, Ehsan Adeli, Philipp Krähenbühl
cs.AI
초록
비모수적 양자화는 매개변수 효율성과 대규모 코드북으로의 확장성으로 인해 많은 관심을 받아왔다. 본 논문에서는 격자 부호화 관점에서 다양한 비모수적 양자화 방법들을 통합적으로 정식화한다. 격자 코드의 기하학적 구조는 BSQ와 같은 기존의 조회 없는 양자화 변형 기법으로 자동 인코더를 훈련할 때 보조 손실 항이 필요한 이유를 설명한다. 이를 발전시켜 무작위 격자, 일반화된 피보나치 격자, 최밀 구 채우기 격자 등 몇 가지 가능한 후보들을 탐구한다. 그중에서 높은 대칭성과 초구 상의 균일한 분포 특성 덕분에 단순화된 훈련 방법과 개선된 재구성-압축 트레이드오프를 보여주는 Leech 격자 기반 양자화 방법(Spherical Leech Quantization, Λ_{24}-SQ)을 발견했다. 이미지 토큰화 및 압축 작업에서 이 양자화 접근법은 기존 최신 기술인 BSQ보다 모든 메트릭에서 더 나은 재구성 품질을 달성하면서 동시에 약간 더 적은 비트를 사용한다. 이러한 개선 효과는 최첨단 자기회귀적 이미지 생성 프레임워크에서도 확인된다.
English
Non-parametric quantization has received much attention due to its efficiency on parameters and scalability to a large codebook. In this paper, we present a unified formulation of different non-parametric quantization methods through the lens of lattice coding. The geometry of lattice codes explains the necessity of auxiliary loss terms when training auto-encoders with certain existing lookup-free quantization variants such as BSQ. As a step forward, we explore a few possible candidates, including random lattices, generalized Fibonacci lattices, and densest sphere packing lattices. Among all, we find the Leech lattice-based quantization method, which is dubbed as Spherical Leech Quantization (Λ_{24}-SQ), leads to both a simplified training recipe and an improved reconstruction-compression tradeoff thanks to its high symmetry and even distribution on the hypersphere. In image tokenization and compression tasks, this quantization approach achieves better reconstruction quality across all metrics than BSQ, the best prior art, while consuming slightly fewer bits. The improvement also extends to state-of-the-art auto-regressive image generation frameworks.