ChatPaper.aiChatPaper

Quantisierter visueller Geometrie-basierter Transformer

Quantized Visual Geometry Grounded Transformer

September 25, 2025
papers.authors: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

papers.abstract

Lernbasierte 3D-Rekonstruktionsmodelle, repräsentiert durch Visual Geometry Grounded Transformers (VGGTs), haben durch den Einsatz von großskaligen Transformern bemerkenswerte Fortschritte erzielt. Ihre prohibitiv hohen Rechen- und Speicherkosten behindern jedoch die praktische Anwendung erheblich. Die Post-Training-Quantisierung (PTQ) hat sich als gängige Methode zur Komprimierung und Beschleunigung von Modellen etabliert. Wir beobachten jedoch empirisch, dass PTQ bei der Komprimierung von milliardengroßen VGGTs auf einzigartige Hindernisse stößt: Die datenunabhängigen speziellen Token führen zu schweren Verteilungen der Aktivierungen, während die Multi-View-Natur von 3D-Daten die Auswahl von Kalibrierungsproben äußerst instabil macht. In diesem Artikel schlagen wir das erste Quantisierungsframework für VGGTs vor, genannt QuantVGGT. Dieses basiert hauptsächlich auf zwei technischen Beiträgen: Erstens führen wir die Dual-Smoothed Fine-Grained Quantization ein, die eine prä-globale Hadamard-Rotation und eine post-lokale Kanalsättigung integriert, um schwer verteilte Verteilungen und Inter-Kanal-Varianzen robust zu mildern. Zweitens entwerfen wir Noise-Filtered Diverse Sampling, das Ausreißer durch tiefe Schichtenstatistiken filtert und rahmenbewusste diverse Kalibrierungscluster konstruiert, um stabile Quantisierungsbereiche zu gewährleisten. Umfassende Experimente zeigen, dass QuantVGGT in verschiedenen Benchmarks und Bit-Breiten die besten Ergebnisse erzielt und die bisherige generische Quantisierungsmethode deutlich übertrifft. Wir betonen, dass unser 4-Bit-QuantVGGT eine 3,7-fache Speicherreduktion und eine 2,5-fache Beschleunigung bei der Inferenz auf echter Hardware liefern kann, während die Rekonstruktionsgenauigkeit über 98 % des Vollpräzisionsmodells bleibt. Dies demonstriert die enormen Vorteile und die Praktikabilität von QuantVGGT in ressourcenbeschränkten Szenarien. Unser Code ist unter https://github.com/wlfeng0509/QuantVGGT verfügbar.
English
Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.
PDF82September 26, 2025