Gekwantiseerde Visuele Geometrie-gebaseerde Transformer
Quantized Visual Geometry Grounded Transformer
September 25, 2025
Auteurs: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Samenvatting
Leergebaseerde 3D-reconstructiemodellen, vertegenwoordigd door Visual Geometry Grounded Transformers (VGGTs), hebben opmerkelijke vooruitgang geboekt met het gebruik van grootschalige transformers. Hun buitensporige reken- en geheugenkosten belemmeren echter de inzet in de praktijk aanzienlijk. Post-Training Quantization (PTQ) is een gangbare praktijk geworden voor het comprimeren en versnellen van modellen. Wij observeren echter empirisch dat PTQ unieke obstakels tegenkomt bij het comprimeren van VGGTs op miljardenschaal: de data-onafhankelijke speciale tokens veroorzaken zwaarstaartige activatiedistributies, terwijl de multi-view aard van 3D-data de selectie van calibratiesteekproeven zeer onstabiel maakt. Dit artikel introduceert het eerste quantisatiekader voor VGGTs, genaamd QuantVGGT. Dit berust voornamelijk op twee technische bijdragen: Ten eerste introduceren we Dual-Smoothed Fine-Grained Quantization, dat pre-globale Hadamard-rotatie en post-lokale kanaalafvlakking integreert om zwaarstaartige distributies en interkanaalvariantie robuust te verminderen. Ten tweede ontwerpen we Noise-Filtered Diverse Sampling, dat uitbijters filtert via diepe-laagstatistieken en frame-bewuste diverse calibratieclusters construeert om stabiele quantisatiebereiken te garanderen. Uitgebreide experimenten tonen aan dat QuantVGGT state-of-the-art resultaten behaalt over verschillende benchmarks en bit-breedtes, en daarmee de vorige state-of-the-art generieke quantisatiemethode met een grote marge overtreft. Wij benadrukken dat onze 4-bits QuantVGGT een geheugenreductie van 3,7 keer en een versnelling van 2,5 keer kan leveren in real-hardware inferentie, terwijl de reconstructienauwkeurigheid boven de 98% van zijn volledige precisie-tegenhanger blijft. Dit toont de enorme voordelen en praktische bruikbaarheid van QuantVGGT in bronbeperkte scenario's aan. Onze code is vrijgegeven op https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.