Transformateur de Géométrie Visuelle Quantifiée Fondée

papers.abstract

Les modèles de reconstruction 3D basés sur l'apprentissage, représentés par les Transformers à Base Géométrique Visuelle (VGGTs), ont réalisé des progrès remarquables grâce à l'utilisation de transformers à grande échelle. Leurs coûts prohibitifs en termes de calcul et de mémoire entravent sérieusement leur déploiement dans des applications réelles. La Quantification Post-Entraînement (PTQ) est devenue une pratique courante pour compresser et accélérer les modèles. Cependant, nous observons empiriquement que la PTQ rencontre des obstacles uniques lors de la compression des VGGTs à l'échelle du milliard : les tokens spéciaux indépendants des données induisent des distributions d'activation à queue lourde, tandis que la nature multi-vues des données 3D rend la sélection des échantillons de calibration très instable. Cet article propose le premier cadre de Quantification pour les VGGTs, nommé QuantVGGT. Celui-ci repose principalement sur deux contributions techniques : Premièrement, nous introduisons la Quantification Fine à Double Lissage, qui intègre une rotation de Hadamard pré-globale et un lissage local post-canal pour atténuer robustement les distributions à queue lourde et la variance inter-canaux. Deuxièmement, nous concevons un Échantillonnage Diversifié Filtré par le Bruit, qui filtre les valeurs aberrantes via des statistiques de couches profondes et construit des clusters de calibration diversifiés conscients des cadres pour assurer des plages de quantification stables. Des expériences approfondies démontrent que QuantVGGT atteint des résultats de pointe sur différents benchmarks et largeurs de bits, surpassant largement la méthode de quantification générique précédemment considérée comme l'état de l'art. Nous soulignons que notre QuantVGGT en 4 bits peut offrir une réduction de mémoire de 3,7 fois et une accélération de 2,5 fois lors de l'inférence sur matériel réel, tout en maintenant une précision de reconstruction supérieure à 98 % de celle de sa version en pleine précision. Cela démontre les avantages considérables et la praticabilité de QuantVGGT dans des scénarios à ressources limitées. Notre code est disponible à l'adresse suivante : https://github.com/wlfeng0509/QuantVGGT.

English

Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.

Transformateur de Géométrie Visuelle Quantifiée Fondée

Quantized Visual Geometry Grounded Transformer

papers.abstract

Support