ChatPaper.aiChatPaper

Transformador de Geometria Visual Quantizada Fundamentada

Quantized Visual Geometry Grounded Transformer

September 25, 2025
Autores: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Resumo

Modelos de reconstrução 3D baseados em aprendizado, representados pelos Visual Geometry Grounded Transformers (VGGTs), têm alcançado progressos notáveis com o uso de transformadores em larga escala. No entanto, seus custos proibitivos de computação e memória dificultam severamente a implantação no mundo real. A Quantização Pós-Treinamento (PTQ) tornou-se uma prática comum para comprimir e acelerar modelos. Contudo, observamos empiricamente que a PTQ enfrenta obstáculos únicos ao comprimir VGGTs em escala de bilhões: os tokens especiais independentes de dados induzem distribuições de ativação com cauda pesada, enquanto a natureza multivista dos dados 3D torna a seleção de amostras de calibração altamente instável. Este artigo propõe o primeiro framework de Quantização para VGGTs, denominado QuantVGGT. Isso se baseia principalmente em duas contribuições técnicas: Primeiro, introduzimos a Quantização de Granulação Fina com Suavização Dupla, que integra a rotação de Hadamard pré-global e a suavização de canal pós-local para mitigar robustamente as distribuições de cauda pesada e a variância intercanal. Segundo, projetamos a Amostragem Diversificada com Filtragem de Ruído, que filtra outliers por meio de estatísticas de camadas profundas e constrói clusters de calibração diversos e conscientes de quadro para garantir faixas de quantização estáveis. Experimentos abrangentes demonstram que o QuantVGGT alcança resultados de ponta em diferentes benchmarks e larguras de bits, superando o método de quantização genérico anterior com uma grande margem. Destacamos que nosso QuantVGGT de 4 bits pode proporcionar uma redução de memória de 3,7 vezes e uma aceleração de 2,5 vezes na inferência em hardware real, mantendo a precisão de reconstrução acima de 98% de sua contraparte de precisão total. Isso demonstra as vastas vantagens e praticidade do QuantVGGT em cenários com recursos limitados. Nosso código está disponível em https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.
PDF82September 26, 2025