SOP: Um Sistema Escalável de Pós-Treinamento Online para Modelos Visão-Linguagem-Ação

Resumo

Os modelos visão-linguagem-ação (VLA) alcançam forte generalização através de pré-treinamento em larga escala, mas a implantação no mundo real exige proficiência em tarefas de nível especialista, além de ampla generalidade. As abordagens existentes de pós-treinamento para modelos VLA são tipicamente offline, de robô único ou específicas para tarefas, limitando a adaptação eficaz sob a política atual e o aprendizado escalável a partir da interação no mundo real. Apresentamos um sistema de Pós-treinamento Online Escalável (SOP) que permite o pós-treinamento online, distribuído e multi-tarefa de modelos VLA generalistas diretamente no mundo físico. O SOP acopla estreitamente execução e aprendizado por meio de uma arquitetura de ciclo fechado na qual uma frota de robôs transmite continuamente experiências sob a política atual e sinais de intervenção humana para um aprendiz centralizado na nuvem, e recebe assincronamente políticas atualizadas. Este projeto suporta correção rápida sob a política atual, escala a coleta de experiência através de implantação paralela e preserva a generalidade durante a adaptação. O SOP é agnóstico em relação à escolha do algoritmo de pós-treinamento; nós o instanciamos com aprendizado por imitação interativo (HG-DAgger) e aprendizado por reforço (RECAP). Em uma variedade de tarefas de manipulação no mundo real, incluindo dobrar roupas, montar caixas e reabastecer mercadorias, mostramos que o SOP melhora substancialmente o desempenho de grandes modelos VLA pré-treinados, mantendo uma única política compartilhada entre tarefas. O pós-treinamento eficaz pode ser alcançado em poucas horas de interação no mundo real, e o desempenho escala de forma quase linear com o número de robôs na frota. Estes resultados sugerem que o acoplamento estreito do aprendizado online com a implantação em escala de frota é fundamental para permitir o pós-treinamento eficiente, confiável e escalável de políticas de robôs generalistas no mundo físico.

English

Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.

SOP: Um Sistema Escalável de Pós-Treinamento Online para Modelos Visão-Linguagem-Ação

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

Resumo

Support