Trasformatore con Geometria Visiva Quantizzata e Ancorata

Abstract

I modelli di ricostruzione 3D basati sull'apprendimento, rappresentati dai Visual Geometry Grounded Transformers (VGGT), hanno compiuto progressi significativi grazie all'uso di trasformatori su larga scala. Tuttavia, i loro proibitivi costi computazionali e di memoria ostacolano gravemente il dispiegamento nel mondo reale. La Quantizzazione Post-Addestramento (PTQ) è diventata una pratica comune per comprimere e accelerare i modelli. Tuttavia, osserviamo empiricamente che la PTQ affronta ostacoli unici quando si tratta di comprimere VGGT su scala miliardaria: i token speciali indipendenti dai dati inducono distribuzioni di attivazione a coda pesante, mentre la natura multi-vista dei dati 3D rende altamente instabile la selezione dei campioni di calibrazione. Questo articolo propone il primo framework di quantizzazione per VGGT, denominato QuantVGGT. Questo si basa principalmente su due contributi tecnici: in primo luogo, introduciamo la Quantizzazione Fine-Grained a Doppia Lisciatura, che integra la rotazione di Hadamard pre-globale e la lisciatura locale post-canale per mitigare robustamente le distribuzioni a coda pesante e la varianza inter-canale. In secondo luogo, progettiamo il Campionamento Diversificato Filtrato dal Rumore, che filtra gli outlier tramite statistiche di strati profondi e costruisce cluster di calibrazione diversificati e consapevoli del frame per garantire intervalli di quantizzazione stabili. Esperimenti completi dimostrano che QuantVGGT raggiunge risultati all'avanguardia su diversi benchmark e bit-width, superando di gran lunga il precedente metodo di quantizzazione generico all'avanguardia. Sottolineiamo che il nostro QuantVGGT a 4 bit può offrire una riduzione della memoria di 3,7 volte e un'accelerazione di 2,5 volte nell'inferenza su hardware reale, mantenendo un'accuratezza di ricostruzione superiore al 98% rispetto alla controparte a precisione completa. Ciò dimostra i vasti vantaggi e la praticità di QuantVGGT in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/wlfeng0509/QuantVGGT.

English

Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7times memory reduction and 2.5times acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.

Trasformatore con Geometria Visiva Quantizzata e Ancorata

Quantized Visual Geometry Grounded Transformer

Abstract

Support