Trasformatore con Geometria Visiva Quantizzata e Ancorata
Quantized Visual Geometry Grounded Transformer
September 25, 2025
Autori: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Abstract
I modelli di ricostruzione 3D basati sull'apprendimento, rappresentati dai Visual Geometry Grounded Transformers (VGGT), hanno compiuto progressi significativi grazie all'uso di trasformatori su larga scala. Tuttavia, i loro proibitivi costi computazionali e di memoria ostacolano gravemente il dispiegamento nel mondo reale. La Quantizzazione Post-Addestramento (PTQ) è diventata una pratica comune per comprimere e accelerare i modelli. Tuttavia, osserviamo empiricamente che la PTQ affronta ostacoli unici quando si tratta di comprimere VGGT su scala miliardaria: i token speciali indipendenti dai dati inducono distribuzioni di attivazione a coda pesante, mentre la natura multi-vista dei dati 3D rende altamente instabile la selezione dei campioni di calibrazione. Questo articolo propone il primo framework di quantizzazione per VGGT, denominato QuantVGGT. Questo si basa principalmente su due contributi tecnici: in primo luogo, introduciamo la Quantizzazione Fine-Grained a Doppia Lisciatura, che integra la rotazione di Hadamard pre-globale e la lisciatura locale post-canale per mitigare robustamente le distribuzioni a coda pesante e la varianza inter-canale. In secondo luogo, progettiamo il Campionamento Diversificato Filtrato dal Rumore, che filtra gli outlier tramite statistiche di strati profondi e costruisce cluster di calibrazione diversificati e consapevoli del frame per garantire intervalli di quantizzazione stabili. Esperimenti completi dimostrano che QuantVGGT raggiunge risultati all'avanguardia su diversi benchmark e bit-width, superando di gran lunga il precedente metodo di quantizzazione generico all'avanguardia. Sottolineiamo che il nostro QuantVGGT a 4 bit può offrire una riduzione della memoria di 3,7 volte e un'accelerazione di 2,5 volte nell'inferenza su hardware reale, mantenendo un'accuratezza di ricostruzione superiore al 98% rispetto alla controparte a precisione completa. Ciò dimostra i vasti vantaggi e la praticità di QuantVGGT in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.