APT : Le pré-entraînement d'expert en actions améliore la généralisation des instructions des politiques Vision-Langage-Action

Résumé

Les modèles Vision-Langage-Action (VLA) qui associent des Modèles Vision-Langage (MVL) pré-entraînés à des experts d'action continue ont obtenu des performances de manipulation élevées, mais leur généralisation à des instructions en langage hors distribution (OOD) reste faible. Un défi connu est le déséquilibre structurel dans les données VLA, où le langage est bien moins diversifié que le contenu visuel et actionnel, rendant les politiques sujettes aux raccourcis visuels. Bien que les méthodes à action discrète atténuent ce problème par un co-entraînement vision-langage, les experts d'action continue ne bénéficient pas d'une telle protection : ils partent d'une initialisation aléatoire et apprennent entièrement à partir de données déséquilibrées, produisant des gradients bruités qui corrompent le MVL et n'exploitent pas ses capacités langagières. Nous abordons cela d'un point de vue bayésien, en factorisant la politique en un a priori Vision-Action (VA) indépendant du langage et une vraisemblance VLA conditionnée par le langage, et proposons APT, une méthode d'entraînement en deux étapes mettant l'accent sur le pré-entraînement de l'expert d'action (*Action expert PreTraining*). Lors de l'étape 1, l'expert d'action est pré-entraîné comme un a priori VA sur des paires vision-action provenant d'un MVL figé, contournant ainsi le déséquilibre langagier. Lors de l'étape 2, les tokens de langage sont injectés via un mécanisme de fusion à porte qui intègre les caractéristiques du MVL tout en préservant l'antériorité visuomotrice apprise. APT s'applique aux architectures VLA courantes, y compris les architectures de type π et GR00T. Des expériences exhaustives valident qu'APT obtient des gains constants sur des instructions invisibles et des tâches compositionnelles. Page du projet : https://xukechun.github.io/papers/APT/

English

Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the π and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/