Treinamento Interativo Pós-Treinamento para Modelos Visão-Linguagem-Ação
Interactive Post-Training for Vision-Language-Action Models
May 22, 2025
Autores: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI
Resumo
Apresentamos o RIPT-VLA, um paradigma simples e escalável de pós-treinamento interativo baseado em aprendizado por reforço que ajusta modelos pré-treinados de Visão-Linguagem-Ação (VLA) utilizando apenas recompensas binárias esparsas de sucesso. Os pipelines de treinamento de VLA existentes dependem fortemente de dados de demonstração especializada offline e de imitação supervisionada, limitando sua capacidade de se adaptar a novas tarefas e ambientes em regimes de baixo volume de dados. O RIPT-VLA aborda essa limitação ao permitir o pós-treinamento interativo com um algoritmo estável de otimização de políticas baseado em amostragem dinâmica de rollouts e estimativa de vantagem leave-one-out.
O RIPT-VLA possui as seguintes características. Primeiro, ele se aplica a diversos modelos VLA, resultando em uma melhoria de 21,2% no modelo leve QueST e levando o modelo OpenVLA-OFT de 7B a uma taxa de sucesso sem precedentes de 97,5%. Segundo, ele é computacionalmente eficiente e eficiente em termos de dados: com apenas uma demonstração, o RIPT-VLA permite que um modelo SFT inicialmente inviável (4%) atinja uma taxa de sucesso de 97% em 15 iterações. Além disso, demonstramos que a política aprendida pelo RIPT-VLA generaliza-se em diferentes tarefas e cenários e é robusta ao contexto do estado inicial. Esses resultados destacam o RIPT-VLA como um paradigma prático e eficaz para o pós-treinamento de modelos VLA com supervisão mínima.
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based
interactive post-training paradigm that fine-tunes pretrained
Vision-Language-Action (VLA) models using only sparse binary success rewards.
Existing VLA training pipelines rely heavily on offline expert demonstration
data and supervised imitation, limiting their ability to adapt to new tasks and
environments under low-data regimes. RIPT-VLA addresses this by enabling
interactive post-training with a stable policy optimization algorithm based on
dynamic rollout sampling and leave-one-out advantage estimation.
RIPT-VLA has the following characteristics. First, it applies to various VLA
models, resulting in an improvement on the lightweight QueST model by 21.2%,
and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it
is computationally efficient and data-efficient: with only one demonstration,
RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success
rate within 15 iterations. Furthermore, we demonstrate that the policy learned
by RIPT-VLA generalizes across different tasks and scenarios and is robust to
the initial state context. These results highlight RIPT-VLA as a practical and
effective paradigm for post-training VLA models through minimal supervision.