Transformador de Geometria Visual Quantizada Fundamentada
Quantized Visual Geometry Grounded Transformer
September 25, 2025
Autores: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Resumo
Modelos de reconstrução 3D baseados em aprendizado, representados pelos Visual Geometry Grounded Transformers (VGGTs), têm alcançado progressos notáveis com o uso de transformadores em larga escala. No entanto, seus custos proibitivos de computação e memória dificultam severamente a implantação no mundo real. A Quantização Pós-Treinamento (PTQ) tornou-se uma prática comum para comprimir e acelerar modelos. Contudo, observamos empiricamente que a PTQ enfrenta obstáculos únicos ao comprimir VGGTs em escala de bilhões: os tokens especiais independentes de dados induzem distribuições de ativação com cauda pesada, enquanto a natureza multivista dos dados 3D torna a seleção de amostras de calibração altamente instável. Este artigo propõe o primeiro framework de Quantização para VGGTs, denominado QuantVGGT. Isso se baseia principalmente em duas contribuições técnicas: Primeiro, introduzimos a Quantização de Granulação Fina com Suavização Dupla, que integra a rotação de Hadamard pré-global e a suavização de canal pós-local para mitigar robustamente as distribuições de cauda pesada e a variância intercanal. Segundo, projetamos a Amostragem Diversificada com Filtragem de Ruído, que filtra outliers por meio de estatísticas de camadas profundas e constrói clusters de calibração diversos e conscientes de quadro para garantir faixas de quantização estáveis. Experimentos abrangentes demonstram que o QuantVGGT alcança resultados de ponta em diferentes benchmarks e larguras de bits, superando o método de quantização genérico anterior com uma grande margem. Destacamos que nosso QuantVGGT de 4 bits pode proporcionar uma redução de memória de 3,7 vezes e uma aceleração de 2,5 vezes na inferência em hardware real, mantendo a precisão de reconstrução acima de 98% de sua contraparte de precisão total. Isso demonstra as vastas vantagens e praticidade do QuantVGGT em cenários com recursos limitados. Nosso código está disponível em https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.