APT: Pré-treinamento de Especialista em Ação Melhora a Generalização de Instruções de Políticas de Visão-Linguagem-Ação

Resumo

Modelos Visão-Linguagem-Ação (VLA) que acoplam Modelos Visão-Linguagem (VLM) pré-treinados com especialistas contínuos em ação alcançaram desempenho robusto em manipulação, mas a generalização para instruções de linguagem fora da distribuição (OOD) permanece baixa. Um desafio conhecido é o desequilíbrio estrutural nos dados VLA, onde a linguagem é muito menos diversa que o conteúdo visual e de ação, tornando as políticas suscetíveis a atalhos visuais. Embora métodos de ação discreta atenuem isso por meio de co-treinamento visão-linguagem, especialistas em ação contínua carecem dessa proteção: eles partem de inicialização aleatória e aprendem inteiramente a partir de dados desbalanceados, produzindo gradientes ruidosos que corrompem o VLM e falham em explorar sua capacidade linguística. Abordamos isso de uma perspectiva bayesiana, fatorando a política em um prior Visão-Ação (VA) agnóstico à linguagem e uma verossimilhança VLA condicionada à linguagem, e propomos APT, um método de treinamento em dois estágios que enfatiza o Pré-treinamento do Especialista em Ação. No Estágio 1, o especialista em ação é pré-treinado como um prior VA em pares visão-ação a partir de um VLM congelado, contornando o desequilíbrio linguístico. No Estágio 2, tokens de linguagem são injetados por meio de um mecanismo de fusão com portas que integra características do VLM enquanto preserva o prior visuomotor aprendido. O APT se aplica a arquiteturas VLA mainstream, incluindo as arquiteturas dos estilos π e GR00T. Experimentos abrangentes validam que o APT obtém ganhos consistentes em instruções não vistas e tarefas composicionais. Página do Projeto: https://xukechun.github.io/papers/APT/

English

Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the π and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/