BitVLA : Modèles Vision-Langue-Action à 1 bit pour la manipulation robotique
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation
June 9, 2025
Auteurs: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen
cs.AI
Résumé
Les modèles Vision-Langage-Action (VLA) ont démontré des capacités impressionnantes dans un large éventail de tâches de manipulation robotique. Cependant, leur taille croissante pose des défis importants pour leur déploiement sur des systèmes robotiques aux ressources limitées. Bien que l'apprentissage préalable en 1 bit se soit avéré efficace pour améliorer l'efficacité de l'inférence des grands modèles de langage avec une perte de performance minimale, son application aux modèles VLA reste peu explorée. Dans ce travail, nous présentons BitVLA, le premier modèle VLA en 1 bit pour la manipulation robotique, dans lequel chaque paramètre est ternaire, c'est-à-dire {-1, 0, 1}. Pour réduire davantage l'empreinte mémoire de l'encodeur visuel, nous proposons une stratégie d'entraînement basée sur la distillation qui compresse l'encodeur en pleine précision à des poids de 1,58 bit. Durant ce processus, un encodeur en pleine précision sert de modèle enseignant pour mieux aligner les représentations latentes. Malgré l'absence d'un apprentissage préalable robotique à grande échelle, BitVLA atteint des performances comparables au modèle de pointe OpenVLA-OFT avec une quantification post-entraînement en 4 bits sur le benchmark LIBERO, tout en consommant seulement 29,8 % de la mémoire. Ces résultats mettent en évidence le potentiel de BitVLA pour le déploiement sur des dispositifs embarqués à mémoire limitée. Nous publions le code et les poids du modèle sur https://github.com/ustcwhy/BitVLA.
English
Vision-Language-Action (VLA) models have shown impressive capabilities across
a wide range of robotics manipulation tasks. However, their growing model size
poses significant challenges for deployment on resource-constrained robotic
systems. While 1-bit pretraining has proven effective for enhancing the
inference efficiency of large language models with minimal performance loss,
its application to VLA models remains underexplored. In this work, we present
BitVLA, the first 1-bit VLA model for robotics manipulation, in which every
parameter is ternary, i.e., {-1, 0, 1}. To further reduce the memory footprint
of the vision encoder, we propose the distillation-aware training strategy that
compresses the full-precision encoder to 1.58-bit weights. During this process,
a full-precision encoder serves as a teacher model to better align latent
representations. Despite the lack of large-scale robotics pretraining, BitVLA
achieves performance comparable to the state-of-the-art model OpenVLA-OFT with
4-bit post-training quantization on the LIBERO benchmark, while consuming only
29.8% of the memory. These results highlight BitVLA's promise for deployment on
memory-constrained edge devices. We release the code and model weights in
https://github.com/ustcwhy/BitVLA.