Переосмысление представления VLM для инициализации VLA

Аннотация

Модели «видение-язык-действие» (VLA) широко используют предобученные модели «видение-язык» (VLM) в качестве магистральной политики, однако до сих пор остаётся неясным, какое представление предобученной VLM является полезным для инициализации VLA. В данной работе мы исследуем инициализацию VLA как задачу контролируемого проектирования представлений по трём осям: контроль на основе воплощённого VQA на уровне способностей, стратегия обновления параметров и предобучение на данных роботов. Наши эксперименты показывают, что исходное представление предобученной VLM является ключевым источником эффективности действий. Однако адаптация к воплощённому VQA не даёт равномерного прироста: её преимущество зависит от узких мест на этапе downstream, а приросты от разных областей способностей не являются просто аддитивными. Что касается стратегии обновления, LoRA обеспечивает более надёжную инициализацию, чем полная донастройка, что указывает на то, что чрезмерное изменение предобученного представления может ослабить инициализацию VLA. Предобучение на данных роботов дополнительно улучшает инициализацию VLA, причём наиболее сильный вариант достигается поэтапным обучением на основе LoRA. В совокупности эти результаты позволяют предположить, что эффективная адаптация VLM→VLA должна вносить сигналы, связанные с действиями, от воплощённого взаимодействия и роботизированных траекторий, сохраняя при этом предобученное представление VLM, которое остаётся полезным для обучения действиям.

English

Vision-Language-Action (VLA) models widely adopt pretrained Vision-Language Models (VLMs) as policy backbones, yet it remains unclear what kind of pretrained VLM representation is useful as a VLA initialization. In this paper, we study VLA initialization as a controlled representation-design problem along three axes: capability-level embodied VQA supervision, parameter-update strategy, and robot-data pretraining. Our experiments show that the original pretrained VLM representation is a key source of action performance. However, embodied VQA adaptation does not yield uniform gains: its benefit depends on downstream bottlenecks, and gains from different capability domains are not simply additive. For update strategy, LoRA provides a more reliable initialization than Full Finetune, indicating that overly reshaping the pretrained representation can weaken VLA initialization. Robot-data pretraining further improves VLA initialization, with the strongest variant obtained by staged LoRA-based training. Together, these findings suggest that effective VLM-to-VLA adaptation should inject action-relevant embodied and robot-trajectory signals while preserving the pretrained VLM representation that remains useful for action learning.