Treinamento Interativo Pós-Treinamento para Modelos Visão-Linguagem-Ação

Resumo

Apresentamos o RIPT-VLA, um paradigma simples e escalável de pós-treinamento interativo baseado em aprendizado por reforço que ajusta modelos pré-treinados de Visão-Linguagem-Ação (VLA) utilizando apenas recompensas binárias esparsas de sucesso. Os pipelines de treinamento de VLA existentes dependem fortemente de dados de demonstração especializada offline e de imitação supervisionada, limitando sua capacidade de se adaptar a novas tarefas e ambientes em regimes de baixo volume de dados. O RIPT-VLA aborda essa limitação ao permitir o pós-treinamento interativo com um algoritmo estável de otimização de políticas baseado em amostragem dinâmica de rollouts e estimativa de vantagem leave-one-out. O RIPT-VLA possui as seguintes características. Primeiro, ele se aplica a diversos modelos VLA, resultando em uma melhoria de 21,2% no modelo leve QueST e levando o modelo OpenVLA-OFT de 7B a uma taxa de sucesso sem precedentes de 97,5%. Segundo, ele é computacionalmente eficiente e eficiente em termos de dados: com apenas uma demonstração, o RIPT-VLA permite que um modelo SFT inicialmente inviável (4%) atinja uma taxa de sucesso de 97% em 15 iterações. Além disso, demonstramos que a política aprendida pelo RIPT-VLA generaliza-se em diferentes tarefas e cenários e é robusta ao contexto do estado inicial. Esses resultados destacam o RIPT-VLA como um paradigma prático e eficaz para o pós-treinamento de modelos VLA com supervisão mínima.

English

We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.

Treinamento Interativo Pós-Treinamento para Modelos Visão-Linguagem-Ação

Interactive Post-Training for Vision-Language-Action Models

Resumo

Support