QuantVLA: Skalenkalibriertes Post-Training-Quantisieren für Vision-Sprache-Handlungs-Modelle
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
February 23, 2026
Autoren: Jingxuan Zhang, Yunta Hsieh, Zhongwei Wang, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang
cs.AI
Zusammenfassung
Vision-Language-Action (VLA)-Modelle vereinigen Wahrnehmung, Sprache und Steuerung für verkörperte Agenten, stehen jedoch aufgrund schnell steigender Rechen- und Speicheranforderungen vor erheblichen Herausforderungen bei der praktischen Implementierung, insbesondere wenn Modelle auf längere Zeithorizonte und größere Backbones skaliert werden. Um diese Engpässe zu adressieren, stellen wir QuantVLA vor, ein trainingsfreies Post-Training-Quantisierungs (PTQ)-Framework, das unseres Wissens nach der erste PTQ-Ansatz für VLA-Systeme und die erste erfolgreiche Quantisierung eines Diffusions-Transformer (DiT)-Aktionskopfes ist. QuantVLA integriert drei skalengekalibrierte Komponenten: (1) ein selektives Quantisierungslayout, das alle linearen Schichten sowohl im Sprach-Backbone als auch im DiT in Integer-Zahlen umwandelt, während die Aufmerksamkeitsprojektionen im Fließkommaformat verbleiben, um den ursprünglichen Operationsplan beizubehalten; (2) Attention Temperature Matching, einen leichtgewichtigen Skalierungsmechanismus pro Kopf, der die Aufmerksamkeitslogits stabilisiert und zur Inferenzzeit in die Dequantisierungsskalen eingefaltet wird; und (3) Output Head Balancing, eine pro-Schicht Kalibrierung der Restschnittstelle, die Energieabweichungen nach der Projektion mildert. Das Framework erfordert kein zusätzliches Training, nutzt nur einen kleinen ungelabelten Kalibrierungspuffer und unterstützt Integer-Kernel für niederbitige Gewichte und Aktivitäten, während die Architektur unverändert bleibt. Bei repräsentativen VLA-Modellen auf LIBERO übertrifft QuantVLA die Aufgabenerfolgsraten der Full-Precision-Baselines, erreicht etwa 70 % relative Speichereinsparungen bei den quantisierten Komponenten und erzielt eine 1,22-fache Beschleunigung der Ende-zu-Ende-Inferenzlatenz. Dies bietet einen praktischen Weg zu skalierbarer niederbitiger verkörperter Intelligenz unter strengen Rechen-, Speicher- und Energieeinschränkungen.
English
Vision-language-action (VLA) models unify perception, language, and control for embodied agents but face significant challenges in practical deployment due to rapidly increasing compute and memory demands, especially as models scale to longer horizons and larger backbones. To address these bottlenecks, we introduce QuantVLA, a training-free post-training quantization (PTQ) framework that, to our knowledge, is the first PTQ approach for VLA systems and the first to successfully quantize a diffusion transformer (DiT) action head. QuantVLA incorporates three scale-calibrated components: (1) a selective quantization layout that integerizes all linear layers in both the language backbone and the DiT while keeping attention projections in floating point to preserve the original operator schedule; (2) attention temperature matching, a lightweight per-head scaling mechanism that stabilizes attention logits and is folded into the dequantization scales at inference; and (3) output head balancing, a per-layer residual interface calibration that mitigates post-projection energy drift. The framework requires no additional training, uses only a small unlabeled calibration buffer, and supports integer kernels for low-bit weights and activations while leaving the architecture unchanged. Across representative VLA models on LIBERO, QuantVLA exceeds the task success rates of full-precision baselines, achieves about 70% relative memory savings on the quantized components, and delivers a 1.22x speedup in end-to-end inference latency, providing a practical pathway toward scalable low-bit embodied intelligence under strict compute, memory, and power constraints.