ChatPaper.aiChatPaper

Gekwantiseerde Visuele Geometrie-gebaseerde Transformer

Quantized Visual Geometry Grounded Transformer

September 25, 2025
Auteurs: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Samenvatting

Leergebaseerde 3D-reconstructiemodellen, vertegenwoordigd door Visual Geometry Grounded Transformers (VGGTs), hebben opmerkelijke vooruitgang geboekt met het gebruik van grootschalige transformers. Hun buitensporige reken- en geheugenkosten belemmeren echter de inzet in de praktijk aanzienlijk. Post-Training Quantization (PTQ) is een gangbare praktijk geworden voor het comprimeren en versnellen van modellen. Wij observeren echter empirisch dat PTQ unieke obstakels tegenkomt bij het comprimeren van VGGTs op miljardenschaal: de data-onafhankelijke speciale tokens veroorzaken zwaarstaartige activatiedistributies, terwijl de multi-view aard van 3D-data de selectie van calibratiesteekproeven zeer onstabiel maakt. Dit artikel introduceert het eerste quantisatiekader voor VGGTs, genaamd QuantVGGT. Dit berust voornamelijk op twee technische bijdragen: Ten eerste introduceren we Dual-Smoothed Fine-Grained Quantization, dat pre-globale Hadamard-rotatie en post-lokale kanaalafvlakking integreert om zwaarstaartige distributies en interkanaalvariantie robuust te verminderen. Ten tweede ontwerpen we Noise-Filtered Diverse Sampling, dat uitbijters filtert via diepe-laagstatistieken en frame-bewuste diverse calibratieclusters construeert om stabiele quantisatiebereiken te garanderen. Uitgebreide experimenten tonen aan dat QuantVGGT state-of-the-art resultaten behaalt over verschillende benchmarks en bit-breedtes, en daarmee de vorige state-of-the-art generieke quantisatiemethode met een grote marge overtreft. Wij benadrukken dat onze 4-bits QuantVGGT een geheugenreductie van 3,7 keer en een versnelling van 2,5 keer kan leveren in real-hardware inferentie, terwijl de reconstructienauwkeurigheid boven de 98% van zijn volledige precisie-tegenhanger blijft. Dit toont de enorme voordelen en praktische bruikbaarheid van QuantVGGT in bronbeperkte scenario's aan. Onze code is vrijgegeven op https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.
PDF82September 26, 2025