APT: предварительное обучение эксперта действий улучшает обобщение инструкций политик видения-языка-действия.

Аннотация

Модели «зрение-язык-действие» (VLA), объединяющие предварительно обученные модели «зрение-язык» (VLM) с экспертами непрерывных действий, демонстрируют высокую производительность в манипуляционных задачах, однако их способность к обобщению на речевые инструкции, выходящие за пределы распределения (OOD), остаётся низкой. Известной проблемой является структурный дисбаланс в данных VLA, где языковая составляющая значительно менее разнообразна по сравнению с визуальной и моторной, что приводит к склонности политик к использованию визуальных сокращений. Хотя методы дискретных действий смягчают этот дисбаланс за счёт совместного обучения зрительно-языковых моделей, эксперты непрерывных действий лишены такой защиты: они инициализируются случайным образом и обучаются исключительно на несбалансированных данных, порождая зашумлённые градиенты, которые нарушают работу VLM и не позволяют в полной мере использовать её языковые способности. Мы решаем эту проблему с байесовской точки зрения, разлагая политику на независимую от языка априорную модель «зрение-действие» (VA) и обусловленную языком апостериорную модель VLA, и предлагаем APT — двухэтапный метод обучения, акцентирующий предварительное обучение эксперта действий (Action expert PreTraining). На этапе 1 эксперт действий предварительно обучается как априорная модель VA на парах «зрение-действие» с замороженной VLM, минуя языковой дисбаланс. На этапе 2 языковые токены внедряются через управляемый механизм слияния, который интегрирует признаки VLM, сохраняя при этом изученный визомоторный априор. APT применим к основным архитектурам VLA, включая стили π и GR00T. Комплексные эксперименты подтверждают, что APT обеспечивает стабильное улучшение результатов на невидимых инструкциях и композиционных задачах. Страница проекта: https://xukechun.github.io/papers/APT/

English

Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the π and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/