Transformador de Geometria Visual Quantizada Fundamentada

Resumo

Modelos de reconstrução 3D baseados em aprendizado, representados pelos Visual Geometry Grounded Transformers (VGGTs), têm alcançado progressos notáveis com o uso de transformadores em larga escala. No entanto, seus custos proibitivos de computação e memória dificultam severamente a implantação no mundo real. A Quantização Pós-Treinamento (PTQ) tornou-se uma prática comum para comprimir e acelerar modelos. Contudo, observamos empiricamente que a PTQ enfrenta obstáculos únicos ao comprimir VGGTs em escala de bilhões: os tokens especiais independentes de dados induzem distribuições de ativação com cauda pesada, enquanto a natureza multivista dos dados 3D torna a seleção de amostras de calibração altamente instável. Este artigo propõe o primeiro framework de Quantização para VGGTs, denominado QuantVGGT. Isso se baseia principalmente em duas contribuições técnicas: Primeiro, introduzimos a Quantização de Granulação Fina com Suavização Dupla, que integra a rotação de Hadamard pré-global e a suavização de canal pós-local para mitigar robustamente as distribuições de cauda pesada e a variância intercanal. Segundo, projetamos a Amostragem Diversificada com Filtragem de Ruído, que filtra outliers por meio de estatísticas de camadas profundas e constrói clusters de calibração diversos e conscientes de quadro para garantir faixas de quantização estáveis. Experimentos abrangentes demonstram que o QuantVGGT alcança resultados de ponta em diferentes benchmarks e larguras de bits, superando o método de quantização genérico anterior com uma grande margem. Destacamos que nosso QuantVGGT de 4 bits pode proporcionar uma redução de memória de 3,7 vezes e uma aceleração de 2,5 vezes na inferência em hardware real, mantendo a precisão de reconstrução acima de 98% de sua contraparte de precisão total. Isso demonstra as vastas vantagens e praticidade do QuantVGGT em cenários com recursos limitados. Nosso código está disponível em https://github.com/wlfeng0509/QuantVGGT.

English

Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.

Transformador de Geometria Visual Quantizada Fundamentada

Quantized Visual Geometry Grounded Transformer

Resumo

Support