ChatPaper.aiChatPaper

SOP : Un système en ligne évolutif pour l'entraînement postérieur des modèles vision-langage-action

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

January 6, 2026
papers.authors: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI

papers.abstract

Les modèles vision-langage-action (VLA) atteignent une forte généralisation grâce à un pré-entraînement à grande échelle, mais leur déploiement en conditions réelles exige une maîtrise experte des tâches en plus d'une large polyvalence. Les approches de post-entraînement existantes pour les modèles VLA sont généralement hors ligne, mono-robot ou spécifiques à une tâche, limitant ainsi l'adaptation en politique et l'apprentissage scalable à partir d'interactions réelles. Nous présentons un système de Post-entraînement en Ligne et Évolutif (SOP) qui permet un post-entraînement en ligne, distribué et multi-tâches de modèles VLA généralistes directement dans le monde physique. SOP couple étroitement l'exécution et l'apprentissage via une architecture en boucle fermée dans laquelle une flotte de robots transmet en continu des expériences en politique et des signaux d'intervention humaine à un apprenant cloud centralisé, et reçoit de manière asynchrone des politiques mises à jour. Cette conception permet une correction rapide en politique, met à l'échelle la collecte d'expérience par déploiement parallèle et préserve la généralité lors de l'adaptation. SOP est agnostique au choix de l'algorithme de post-entraînement ; nous l'instancions avec de l'apprentissage par imitation interactive (HG-DAgger) et de l'apprentissage par renforcement (RECAP). Sur une gamme de tâches de manipulation réelles incluant le pliage de linge, l'assemblage de boîtes et le réapprovisionnement d'épicerie, nous montrons que SOP améliore substantiellement les performances de grands modèles VLA pré-entraînés tout en maintenant une politique unique et partagée entre les tâches. Un post-entraînement efficace peut être atteint en quelques heures d'interaction réelle, et les performances augmentent de manière quasi-linéaire avec le nombre de robots dans la flotte. Ces résultats suggèrent que le couplage étroit entre l'apprentissage en ligne et le déploiement à l'échelle d'une flotte est essentiel pour permettre un post-entraînement efficace, fiable et scalable de politiques robotiques généralistes dans le monde physique.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
PDF191January 8, 2026