BitVLA : Modèles Vision-Langue-Action à 1 bit pour la manipulation robotique

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont démontré des capacités impressionnantes dans un large éventail de tâches de manipulation robotique. Cependant, leur taille croissante pose des défis importants pour leur déploiement sur des systèmes robotiques aux ressources limitées. Bien que l'apprentissage préalable en 1 bit se soit avéré efficace pour améliorer l'efficacité de l'inférence des grands modèles de langage avec une perte de performance minimale, son application aux modèles VLA reste peu explorée. Dans ce travail, nous présentons BitVLA, le premier modèle VLA en 1 bit pour la manipulation robotique, dans lequel chaque paramètre est ternaire, c'est-à-dire {-1, 0, 1}. Pour réduire davantage l'empreinte mémoire de l'encodeur visuel, nous proposons une stratégie d'entraînement basée sur la distillation qui compresse l'encodeur en pleine précision à des poids de 1,58 bit. Durant ce processus, un encodeur en pleine précision sert de modèle enseignant pour mieux aligner les représentations latentes. Malgré l'absence d'un apprentissage préalable robotique à grande échelle, BitVLA atteint des performances comparables au modèle de pointe OpenVLA-OFT avec une quantification post-entraînement en 4 bits sur le benchmark LIBERO, tout en consommant seulement 29,8 % de la mémoire. Ces résultats mettent en évidence le potentiel de BitVLA pour le déploiement sur des dispositifs embarqués à mémoire limitée. Nous publions le code et les poids du modèle sur https://github.com/ustcwhy/BitVLA.

English

Vision-Language-Action (VLA) models have shown impressive capabilities across a wide range of robotics manipulation tasks. However, their growing model size poses significant challenges for deployment on resource-constrained robotic systems. While 1-bit pretraining has proven effective for enhancing the inference efficiency of large language models with minimal performance loss, its application to VLA models remains underexplored. In this work, we present BitVLA, the first 1-bit VLA model for robotics manipulation, in which every parameter is ternary, i.e., {-1, 0, 1}. To further reduce the memory footprint of the vision encoder, we propose the distillation-aware training strategy that compresses the full-precision encoder to 1.58-bit weights. During this process, a full-precision encoder serves as a teacher model to better align latent representations. Despite the lack of large-scale robotics pretraining, BitVLA achieves performance comparable to the state-of-the-art model OpenVLA-OFT with 4-bit post-training quantization on the LIBERO benchmark, while consuming only 29.8% of the memory. These results highlight BitVLA's promise for deployment on memory-constrained edge devices. We release the code and model weights in https://github.com/ustcwhy/BitVLA.

BitVLA : Modèles Vision-Langue-Action à 1 bit pour la manipulation robotique

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

papers.abstract

Support