Repenser la représentation du VLM pour l'initialisation du VLA

Résumé

Les modèles Vision-Langage-Action (VLA) adoptent largement des modèles Vision-Langage (VLM) pré-entraînés comme architectures de base pour les politiques, mais il reste flou quel type de représentation VLM pré-entraînée est utile en tant qu'initialisation VLA. Dans cet article, nous étudions l'initialisation VLA comme un problème de conception de représentation contrôlé selon trois axes : la supervision VQA incarnée au niveau des capacités, la stratégie de mise à jour des paramètres et le pré-entraînement sur données robotiques. Nos expériences montrent que la représentation VLM pré-entraînée originale est une source clé de la performance des actions. Cependant, l'adaptation VQA incarnée ne produit pas des gains uniformes : son bénéfice dépend des goulots d'étranglement en aval, et les gains provenant de différents domaines de capacités ne sont pas simplement additifs. Pour la stratégie de mise à jour, LoRA fournit une initialisation plus fiable que le Fine-tuning complet, indiquant qu'une remodelisation excessive de la représentation pré-entraînée peut affaiblir l'initialisation VLA. Le pré-entraînement sur données robotiques améliore davantage l'initialisation VLA, la variante la plus forte étant obtenue par un entraînement progressif basé sur LoRA. Ensemble, ces résultats suggèrent qu'une adaptation efficace de VLM à VLA devrait injecter des signaux incarnés et de trajectoire robotique pertinents pour l'action, tout en préservant la représentation VLM pré-entraînée qui reste utile pour l'apprentissage des actions.

English

Vision-Language-Action (VLA) models widely adopt pretrained Vision-Language Models (VLMs) as policy backbones, yet it remains unclear what kind of pretrained VLM representation is useful as a VLA initialization. In this paper, we study VLA initialization as a controlled representation-design problem along three axes: capability-level embodied VQA supervision, parameter-update strategy, and robot-data pretraining. Our experiments show that the original pretrained VLM representation is a key source of action performance. However, embodied VQA adaptation does not yield uniform gains: its benefit depends on downstream bottlenecks, and gains from different capability domains are not simply additive. For update strategy, LoRA provides a more reliable initialization than Full Finetune, indicating that overly reshaping the pretrained representation can weaken VLA initialization. Robot-data pretraining further improves VLA initialization, with the strongest variant obtained by staged LoRA-based training. Together, these findings suggest that effective VLM-to-VLA adaptation should inject action-relevant embodied and robot-trajectory signals while preserving the pretrained VLM representation that remains useful for action learning.