APT: El preentrenamiento experto en acciones mejora la generalización de instrucciones en las políticas de visión-lenguaje-acción

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) que combinan Modelos de Visión-Lenguaje (VLM) preentrenados con expertos de acción continua han logrado un sólido rendimiento en manipulación, pero su generalización a instrucciones de lenguaje fuera de distribución (OOD) sigue siendo deficiente. Un desafío conocido es el desequilibrio estructural en los datos VLA, donde el lenguaje es mucho menos diverso que el contenido visual y de acción, lo que hace que las políticas tiendan a tomar atajos visuales. Si bien los métodos de acción discreta mitigan esto mediante el coentrenamiento visión-lenguaje, los expertos de acción continua carecen de dicha protección: parten de una inicialización aleatoria y aprenden completamente a partir de datos desequilibrados, generando gradientes ruidosos que corrompen el VLM y no logran explotar su capacidad lingüística. Abordamos esto desde una perspectiva bayesiana, factorizando la política en un prior Visión-Acción (VA) independiente del lenguaje y una verosimilitud VLA condicionada al lenguaje, y proponemos APT, un método de entrenamiento en dos etapas que enfatiza el Preentrenamiento del Experto de Acción. En la Etapa 1, el experto de acción se preentrena como un prior VA en pares visión-acción a partir de un VLM congelado, evitando el desequilibrio del lenguaje. En la Etapa 2, los tokens de lenguaje se inyectan a través de un mecanismo de fusión con puerta que integra características del VLM mientras preserva el prior visomotor aprendido. APT se aplica a arquitecturas VLA convencionales, incluidas las de estilo π y GR00T. Experimentos exhaustivos validan que APT logra mejoras consistentes en instrucciones no vistas y tareas composicionales. Página del proyecto: https://xukechun.github.io/papers/APT/

English

Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the π and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/