ChatPaper.aiChatPaper

Трансформер с квантованной визуальной геометрией

Quantized Visual Geometry Grounded Transformer

September 25, 2025
Авторы: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
cs.AI

Аннотация

Модели трехмерной реконструкции на основе обучения, представленные Visual Geometry Grounded Transformers (VGGTs), достигли значительного прогресса благодаря использованию крупномасштабных трансформеров. Однако их чрезмерные вычислительные и энергетические затраты серьезно ограничивают их применение в реальных условиях. Посттренировочная квантизация (PTQ) стала распространенным методом для сжатия и ускорения моделей. Тем не менее, эмпирически мы наблюдаем, что PTQ сталкивается с уникальными трудностями при сжатии миллиардных VGGTs: независимые от данных специальные токены вызывают распределения активаций с тяжелыми хвостами, а многопользовательская природа 3D-данных делает выбор калибровочных образцов крайне нестабильным. В данной статье предлагается первая квантизационная структура для VGGTs, а именно QuantVGGT. Она основывается на двух технических вкладах: во-первых, мы вводим Dual-Smoothed Fine-Grained Quantization, которая интегрирует предварительное глобальное вращение Адамара и последующее локальное сглаживание каналов для устойчивого смягчения распределений с тяжелыми хвостами и межканальной дисперсии. Во-вторых, мы разрабатываем Noise-Filtered Diverse Sampling, который фильтрует выбросы с помощью статистики глубоких слоев и строит кадро-ориентированные разнообразные калибровочные кластеры для обеспечения стабильных диапазонов квантизации. Комплексные эксперименты демонстрируют, что QuantVGGT достигает наилучших результатов на различных тестах и битовых глубинах, значительно превосходя предыдущие методы общей квантизации. Мы подчеркиваем, что наш 4-битный QuantVGGT обеспечивает сокращение памяти в 3,7 раза и ускорение в 2,5 раза при реальном аппаратном выводе, сохраняя точность реконструкции выше 98% от полной точности. Это демонстрирует значительные преимущества и практичность QuantVGGT в условиях ограниченных ресурсов. Наш код доступен по адресу https://github.com/wlfeng0509/QuantVGGT.
English
Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.
PDF82September 26, 2025