Transformador de Geometría Visual Cuantizada Fundamentada

Resumen

Los modelos de reconstrucción 3D basados en aprendizaje, representados por los Transformers de Geometría Visual Fundamentada (VGGTs, por sus siglas en inglés), han logrado avances notables con el uso de transformers a gran escala. Sin embargo, sus costos prohibitivos de computación y memoria dificultan severamente su implementación en el mundo real. La Cuantización Post-Entrenamiento (PTQ, por sus siglas en inglés) se ha convertido en una práctica común para comprimir y acelerar modelos. No obstante, observamos empíricamente que la PTQ enfrenta obstáculos únicos al comprimir VGGTs de escala de miles de millones: los tokens especiales independientes de los datos inducen distribuciones de activación de cola pesada, mientras que la naturaleza multivista de los datos 3D hace que la selección de muestras de calibración sea altamente inestable. Este artículo propone el primer marco de Cuantización para VGGTs, denominado QuantVGGT. Esto se basa principalmente en dos contribuciones técnicas: En primer lugar, introducimos la Cuantización de Grano Fino con Suavizado Dual, que integra una rotación de Hadamard pre-global y un suavizado de canal post-local para mitigar de manera robusta las distribuciones de cola pesada y la varianza entre canales. En segundo lugar, diseñamos un Muestreo Diverso Filtrado por Ruido, que filtra valores atípicos mediante estadísticas de capas profundas y construye grupos de calibración diversos conscientes del marco para garantizar rangos de cuantización estables. Experimentos exhaustivos demuestran que QuantVGGT alcanza resultados de vanguardia en diferentes puntos de referencia y anchos de bit, superando con gran margen el método de cuantización genérico anteriormente más avanzado. Destacamos que nuestro QuantVGGT de 4 bits puede ofrecer una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en la inferencia en hardware real, manteniendo una precisión de reconstrucción superior al 98% de su contraparte de precisión completa. Esto demuestra las vastas ventajas y practicidad de QuantVGGT en escenarios con recursos limitados. Nuestro código está disponible en https://github.com/wlfeng0509/QuantVGGT.

English

Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.

Transformador de Geometría Visual Cuantizada Fundamentada

Quantized Visual Geometry Grounded Transformer

Resumen

Support