Transformateur de Géométrie Visuelle Quantifiée Fondée
Quantized Visual Geometry Grounded Transformer
September 25, 2025
papers.authors: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
papers.abstract
Les modèles de reconstruction 3D basés sur l'apprentissage, représentés par les Transformers à Base Géométrique Visuelle (VGGTs), ont réalisé des progrès remarquables grâce à l'utilisation de transformers à grande échelle. Leurs coûts prohibitifs en termes de calcul et de mémoire entravent sérieusement leur déploiement dans des applications réelles. La Quantification Post-Entraînement (PTQ) est devenue une pratique courante pour compresser et accélérer les modèles. Cependant, nous observons empiriquement que la PTQ rencontre des obstacles uniques lors de la compression des VGGTs à l'échelle du milliard : les tokens spéciaux indépendants des données induisent des distributions d'activation à queue lourde, tandis que la nature multi-vues des données 3D rend la sélection des échantillons de calibration très instable. Cet article propose le premier cadre de Quantification pour les VGGTs, nommé QuantVGGT. Celui-ci repose principalement sur deux contributions techniques : Premièrement, nous introduisons la Quantification Fine à Double Lissage, qui intègre une rotation de Hadamard pré-globale et un lissage local post-canal pour atténuer robustement les distributions à queue lourde et la variance inter-canaux. Deuxièmement, nous concevons un Échantillonnage Diversifié Filtré par le Bruit, qui filtre les valeurs aberrantes via des statistiques de couches profondes et construit des clusters de calibration diversifiés conscients des cadres pour assurer des plages de quantification stables. Des expériences approfondies démontrent que QuantVGGT atteint des résultats de pointe sur différents benchmarks et largeurs de bits, surpassant largement la méthode de quantification générique précédemment considérée comme l'état de l'art. Nous soulignons que notre QuantVGGT en 4 bits peut offrir une réduction de mémoire de 3,7 fois et une accélération de 2,5 fois lors de l'inférence sur matériel réel, tout en maintenant une précision de reconstruction supérieure à 98 % de celle de sa version en pleine précision. Cela démontre les avantages considérables et la praticabilité de QuantVGGT dans des scénarios à ressources limitées. Notre code est disponible à l'adresse suivante : https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.