Трансформер с квантованной визуальной геометрией
Quantized Visual Geometry Grounded Transformer
September 25, 2025
Авторы: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI
Аннотация
Модели трехмерной реконструкции на основе обучения, представленные Visual Geometry Grounded Transformers (VGGTs), достигли значительного прогресса благодаря использованию крупномасштабных трансформеров. Однако их чрезмерные вычислительные и энергетические затраты серьезно ограничивают их применение в реальных условиях. Посттренировочная квантизация (PTQ) стала распространенным методом для сжатия и ускорения моделей. Тем не менее, эмпирически мы наблюдаем, что PTQ сталкивается с уникальными трудностями при сжатии миллиардных VGGTs: независимые от данных специальные токены вызывают распределения активаций с тяжелыми хвостами, а многопользовательская природа 3D-данных делает выбор калибровочных образцов крайне нестабильным. В данной статье предлагается первая квантизационная структура для VGGTs, а именно QuantVGGT. Она основывается на двух технических вкладах: во-первых, мы вводим Dual-Smoothed Fine-Grained Quantization, которая интегрирует предварительное глобальное вращение Адамара и последующее локальное сглаживание каналов для устойчивого смягчения распределений с тяжелыми хвостами и межканальной дисперсии. Во-вторых, мы разрабатываем Noise-Filtered Diverse Sampling, который фильтрует выбросы с помощью статистики глубоких слоев и строит кадро-ориентированные разнообразные калибровочные кластеры для обеспечения стабильных диапазонов квантизации. Комплексные эксперименты демонстрируют, что QuantVGGT достигает наилучших результатов на различных тестах и битовых глубинах, значительно превосходя предыдущие методы общей квантизации. Мы подчеркиваем, что наш 4-битный QuantVGGT обеспечивает сокращение памяти в 3,7 раза и ускорение в 2,5 раза при реальном аппаратном выводе, сохраняя точность реконструкции выше 98% от полной точности. Это демонстрирует значительные преимущества и практичность QuantVGGT в условиях ограниченных ресурсов. Наш код доступен по адресу https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry
Grounded Transformers (VGGTs), have made remarkable progress with the use of
large-scale transformers. Their prohibitive computational and memory costs
severely hinder real-world deployment. Post-Training Quantization (PTQ) has
become a common practice for compressing and accelerating models. However, we
empirically observe that PTQ faces unique obstacles when compressing
billion-scale VGGTs: the data-independent special tokens induce heavy-tailed
activation distributions, while the multi-view nature of 3D data makes
calibration sample selection highly unstable. This paper proposes the first
Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two
technical contributions: First, we introduce Dual-Smoothed Fine-Grained
Quantization, which integrates pre-global Hadamard rotation and post-local
channel smoothing to mitigate heavy-tailed distributions and inter-channel
variance robustly. Second, we design Noise-Filtered Diverse Sampling, which
filters outliers via deep-layer statistics and constructs frame-aware diverse
calibration clusters to ensure stable quantization ranges. Comprehensive
experiments demonstrate that QuantVGGT achieves the state-of-the-art results
across different benchmarks and bit-width, surpassing the previous
state-of-the-art generic quantization method with a great margin. We highlight
that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and
2.5times acceleration in real-hardware inference, while maintaining
reconstruction accuracy above 98\% of its full-precision counterpart. This
demonstrates the vast advantages and practicality of QuantVGGT in
resource-constrained scenarios. Our code is released in
https://github.com/wlfeng0509/QuantVGGT.