Neubewertung der VLM-Repräsentation für die VLA-Initialisierung

Zusammenfassung

Vision-Language-Action (VLA)-Modelle übernehmen häufig vortrainierte Vision-Language-Modelle (VLM) als Policy-Backbones, doch es bleibt unklar, welche Art von vortrainierter VLM-Repräsentation als VLA-Initialisierung nützlich ist. In dieser Arbeit untersuchen wir die VLA-Initialisierung als ein kontrolliertes Repräsentationsdesign-Problem entlang dreier Achsen: fähigkeitsbezogene verkörperte VQA-Überwachung, Parameteraktualisierungsstrategie und Vortraining mit Roboterdaten. Unsere Experimente zeigen, dass die ursprüngliche vortrainierte VLM-Repräsentation eine wichtige Quelle für die Aktionsleistung ist. Allerdings führt die verkörperte VQA-Adaption nicht zu einheitlichen Verbesserungen: Ihr Nutzen hängt von nachgelagerten Engpässen ab, und Gewinne aus verschiedenen Fähigkeitsbereichen sind nicht einfach additiv. Hinsichtlich der Aktualisierungsstrategie bietet LoRA eine zuverlässigere Initialisierung als vollständiges Feintuning, was darauf hindeutet, dass eine übermäßige Umformung der vortrainierten Repräsentation die VLA-Initialisierung schwächen kann. Das Vortraining mit Roboterdaten verbessert die VLA-Initialisierung weiter, wobei die stärkste Variante durch gestaffeltes LoRA-basiertes Training erzielt wird. Zusammen deuten diese Ergebnisse darauf hin, dass eine effektive VLM-zu-VLA-Adaption handlungsrelevante verkörperte und Roboter-Trajektorien-Signale einbringen sollte, während die vortrainierte VLM-Repräsentation erhalten bleibt, die für das Aktionslernen weiterhin nützlich ist.

English

Vision-Language-Action (VLA) models widely adopt pretrained Vision-Language Models (VLMs) as policy backbones, yet it remains unclear what kind of pretrained VLM representation is useful as a VLA initialization. In this paper, we study VLA initialization as a controlled representation-design problem along three axes: capability-level embodied VQA supervision, parameter-update strategy, and robot-data pretraining. Our experiments show that the original pretrained VLM representation is a key source of action performance. However, embodied VQA adaptation does not yield uniform gains: its benefit depends on downstream bottlenecks, and gains from different capability domains are not simply additive. For update strategy, LoRA provides a more reliable initialization than Full Finetune, indicating that overly reshaping the pretrained representation can weaken VLA initialization. Robot-data pretraining further improves VLA initialization, with the strongest variant obtained by staged LoRA-based training. Together, these findings suggest that effective VLM-to-VLA adaptation should inject action-relevant embodied and robot-trajectory signals while preserving the pretrained VLM representation that remains useful for action learning.