Transformador de Geometría Visual Cuantizada Fundamentada
Quantized Visual Geometry Grounded Transformer
September 25, 2025
Autores: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Resumen
Los modelos de reconstrucción 3D basados en aprendizaje, representados por los Transformers de Geometría Visual Fundamentada (VGGTs, por sus siglas en inglés), han logrado avances notables con el uso de transformers a gran escala. Sin embargo, sus costos prohibitivos de computación y memoria dificultan severamente su implementación en el mundo real. La Cuantización Post-Entrenamiento (PTQ, por sus siglas en inglés) se ha convertido en una práctica común para comprimir y acelerar modelos. No obstante, observamos empíricamente que la PTQ enfrenta obstáculos únicos al comprimir VGGTs de escala de miles de millones: los tokens especiales independientes de los datos inducen distribuciones de activación de cola pesada, mientras que la naturaleza multivista de los datos 3D hace que la selección de muestras de calibración sea altamente inestable. Este artículo propone el primer marco de Cuantización para VGGTs, denominado QuantVGGT. Esto se basa principalmente en dos contribuciones técnicas: En primer lugar, introducimos la Cuantización de Grano Fino con Suavizado Dual, que integra una rotación de Hadamard pre-global y un suavizado de canal post-local para mitigar de manera robusta las distribuciones de cola pesada y la varianza entre canales. En segundo lugar, diseñamos un Muestreo Diverso Filtrado por Ruido, que filtra valores atípicos mediante estadísticas de capas profundas y construye grupos de calibración diversos conscientes del marco para garantizar rangos de cuantización estables. Experimentos exhaustivos demuestran que QuantVGGT alcanza resultados de vanguardia en diferentes puntos de referencia y anchos de bit, superando con gran margen el método de cuantización genérico anteriormente más avanzado. Destacamos que nuestro QuantVGGT de 4 bits puede ofrecer una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en la inferencia en hardware real, manteniendo una precisión de reconstrucción superior al 98% de su contraparte de precisión completa. Esto demuestra las vastas ventajas y practicidad de QuantVGGT en escenarios con recursos limitados. Nuestro código está disponible en https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.