Reconsiderando la representación de VLM para la inicialización de VLA

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) adoptan ampliamente modelos de Visión-Lenguaje (VLM) preentrenados como backbones de políticas, aunque aún no está claro qué tipo de representación de VLM preentrenada es útil como inicialización de VLA. En este artículo, estudiamos la inicialización de VLA como un problema de diseño de representación controlada a lo largo de tres ejes: supervisión de VQA incorporada a nivel de capacidad, estrategia de actualización de parámetros y preentrenamiento con datos de robots. Nuestros experimentos muestran que la representación original del VLM preentrenado es una fuente clave de rendimiento de la acción. Sin embargo, la adaptación de VQA incorporada no produce ganancias uniformes: su beneficio depende de los cuellos de botella posteriores, y las ganancias de diferentes dominios de capacidad no son simplemente aditivas. En cuanto a la estrategia de actualización, LoRA proporciona una inicialización más fiable que el ajuste fino completo, lo que indica que remodelar excesivamente la representación preentrenada puede debilitar la inicialización de VLA. El preentrenamiento con datos de robots mejora aún más la inicialización de VLA, obteniéndose la variante más sólida mediante un entrenamiento basado en LoRA por etapas. En conjunto, estos hallazgos sugieren que una adaptación eficaz de VLM a VLA debe inyectar señales corporales y de trayectorias de robots relevantes para la acción, preservando al mismo tiempo la representación del VLM preentrenado que sigue siendo útil para el aprendizaje de acciones.

English

Vision-Language-Action (VLA) models widely adopt pretrained Vision-Language Models (VLMs) as policy backbones, yet it remains unclear what kind of pretrained VLM representation is useful as a VLA initialization. In this paper, we study VLA initialization as a controlled representation-design problem along three axes: capability-level embodied VQA supervision, parameter-update strategy, and robot-data pretraining. Our experiments show that the original pretrained VLM representation is a key source of action performance. However, embodied VQA adaptation does not yield uniform gains: its benefit depends on downstream bottlenecks, and gains from different capability domains are not simply additive. For update strategy, LoRA provides a more reliable initialization than Full Finetune, indicating that overly reshaping the pretrained representation can weaken VLA initialization. Robot-data pretraining further improves VLA initialization, with the strongest variant obtained by staged LoRA-based training. Together, these findings suggest that effective VLM-to-VLA adaptation should inject action-relevant embodied and robot-trajectory signals while preserving the pretrained VLM representation that remains useful for action learning.