QuantVLA: Geschaalde Post-Trainingskwantisatie voor Vision-Language-Action Modellen
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
February 23, 2026
Auteurs: Jingxuan Zhang, Yunta Hsieh, Zhongwei Wang, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang
cs.AI
Samenvatting
Vision-language-action (VLA)-modellen verenigen perceptie, taal en controle voor belichaamde agents, maar worden geconfronteerd met aanzienlijke uitdagingen bij praktische inzet door snel toenemende reken- en geheugeneisen, vooral naarmate modellen worden opgeschaald naar langere tijdshorizons en grotere backbones. Om deze knelpunten aan te pakken, introduceren wij QuantVLA, een trainingsvrij *post-training quantization* (PTQ)-raamwerk dat, voor zover wij weten, de eerste PTQ-aanpak voor VLA-systemen is en de eerste die met succes een *diffusion transformer* (DiT)-actiehoofd kwantiseert. QuantVLA bevat drie geschaalde-gekalibreerde componenten: (1) een selectief kwantiseringslayout dat alle lineaire lagen in zowel de taal-backbone als de DiT integer maakt, terwijl aandachtprojecties in drijvende komma worden gehouden om het oorspronkelijke operatorschema te behouden; (2) *attention temperature matching*, een lichtgewicht schaalmechanisme per hoofd dat aandachtlogits stabiliseert en tijdens inferentie wordt opgenomen in de dekwantisatieschalen; en (3) *output head balancing*, een per-laagresiduinterfacekalibratie die energie-drift na projectie vermindert. Het raamwerk vereist geen extra training, gebruikt slechts een kleine ongekalibreerde buffer en ondersteunt integerkernels voor gewichten en activaties met laag bitgetal, terwijl de architectuur ongewijzigd blijft. Op representatieve VLA-modellen op LIBERO overtreft QuantVLA de taaksuccespercentages van *full-precision* basislijnen, realiseert ongeveer 70% relatieve geheugenbesparing op de gekwantiseerde componenten en levert een 1.22x versnelling in end-to-end inferentielatentie, waarmee een praktisch pad wordt geboden naar schaalbare belichaamde intelligentie met laag bitgetal onder strikte reken-, geheugen- en stroombeperkingen.
English
Vision-language-action (VLA) models unify perception, language, and control for embodied agents but face significant challenges in practical deployment due to rapidly increasing compute and memory demands, especially as models scale to longer horizons and larger backbones. To address these bottlenecks, we introduce QuantVLA, a training-free post-training quantization (PTQ) framework that, to our knowledge, is the first PTQ approach for VLA systems and the first to successfully quantize a diffusion transformer (DiT) action head. QuantVLA incorporates three scale-calibrated components: (1) a selective quantization layout that integerizes all linear layers in both the language backbone and the DiT while keeping attention projections in floating point to preserve the original operator schedule; (2) attention temperature matching, a lightweight per-head scaling mechanism that stabilizes attention logits and is folded into the dequantization scales at inference; and (3) output head balancing, a per-layer residual interface calibration that mitigates post-projection energy drift. The framework requires no additional training, uses only a small unlabeled calibration buffer, and supports integer kernels for low-bit weights and activations while leaving the architecture unchanged. Across representative VLA models on LIBERO, QuantVLA exceeds the task success rates of full-precision baselines, achieves about 70% relative memory savings on the quantized components, and delivers a 1.22x speedup in end-to-end inference latency, providing a practical pathway toward scalable low-bit embodied intelligence under strict compute, memory, and power constraints.