APT: Action-Expert-Pretraining verbessert die Instruktionsgeneralisierung von Vision-Language-Action-Policies.

Zusammenfassung

Vision-Language-Action-Modelle (VLA-Modelle), die vortrainierte Vision-Language-Modelle (VLM) mit kontinuierlichen Aktions-Experten koppeln, erzielen zwar starke Manipulationsleistungen, weisen jedoch eine schlechte Generalisierung auf sprachliche Instruktionen außerhalb der Verteilung (Out-of-Distribution, OOD) auf. Eine bekannte Herausforderung ist das strukturelle Ungleichgewicht in VLA-Daten, bei dem Sprache weit weniger divers ist als visuelle und aktionsbezogene Inhalte, was Politiken anfällig für visuelle Abkürzungen macht. Während diskrete Aktionsmethoden dies durch Vision-Language-Co-Training abmildern, fehlt kontinuierlichen Aktions-Experten ein solcher Schutz: Sie starten mit zufälliger Initialisierung und lernen vollständig aus unausgeglichenen Daten, wodurch verrauschte Gradienten entstehen, die das VLM beeinträchtigen und dessen Sprachfähigkeit nicht nutzen. Wir begegnen diesem Problem aus einer Bayesianischen Perspektive, indem wir die Politik in einen sprachagnostischen Vision-Action (VA)-Prior und eine sprachbedingte VLA-Likelihood faktorisieren, und schlagen APT vor, eine zweistufige Trainingsmethode mit Schwerpunkt auf dem Vortraining von Aktions-Experten (Action expert PreTraining). In Stufe 1 wird der Aktions-Experte als VA-Prior auf Vision-Action-Paaren aus einem eingefrorenen VLM vortrainiert, wobei das sprachliche Ungleichgewicht umgangen wird. In Stufe 2 werden Sprach-Token über einen gegated Fusion-Mechanismus injiziert, der VLM-Merkmale integriert und gleichzeitig den gelernten visuomotorischen Prior bewahrt. APT ist auf gängige VLA-Architekturen anwendbar, einschließlich der π- und GR00T-Architekturen. Umfassende Experimente belegen, dass APT konsistente Verbesserungen bei unbekannten Instruktionen und kompositionellen Aufgaben erzielt. Projektseite: https://xukechun.github.io/papers/APT/

English

Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the π and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/