ChatPaper.aiChatPaper

SOP: Een schaalbaar online systeem voor post-training van vision-language-action modellen

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

January 6, 2026
Auteurs: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI

Samenvatting

Vision-language-action (VLA)-modellen bereiken sterke generalisatie via grootschalige pre-training, maar inzet in de praktijk vereist expertniveau taakvaardigheid naast brede algemeenheid. Bestaande post-trainingmethoden voor VLA-modellen zijn typisch offline, single-robot of taakspecifiek, wat effectieve on-policy-aanpassing en schaalbaar leren uit real-world-interactie beperkt. Wij introduceren een Scalable Online Post-training (SOP)-systeem dat online, gedistribueerde, multi-task post-training van generalistische VLA-modellen direct in de fysieke wereld mogelijk maakt. SOP koppelt uitvoering en leren nauw via een closed-loop-architectuur waarin een vloot robots continu on-policy-ervaring en menselijke interventiesignalen naar een gecentraliseerde cloud-leerunit streamt, en asynchroon bijgewerkte beleidsmodellen ontvangt. Dit ontwerp ondersteunt directe on-policy-correctie, schaalt ervaringsverzameling via parallelle inzet en behoudt algemeenheid tijdens aanpassing. SOP is agnostisch ten opzichte van de keuze van post-trainingalgoritme; wij implementeren het met zowel interactieve imitatieleren (HG-DAgger) als reinforcement learning (RECAP). Over een reeks real-world-manipulatietaken, inclusief het vouwen van textiel, het in elkaar zetten van dozen en het bijvullen van waren, tonen wij aan dat SOP de prestaties van grote voorgetrainde VLA-modellen aanzienlijk verbetert terwijl een gedeeld beleidsmodel over taken heen behouden blijft. Effectieve post-training kan binnen uren real-world-interactie worden bereikt, en prestaties schalen bijna-lineair met het aantal robots in de vloot. Deze resultaten suggereren dat nauwe koppeling van online leren met inzet op vlootschaal essentieel is voor efficiënte, betrouwbare en schaalbare post-training van generalistische robotbeleidsmodellen in de fysieke wereld.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
PDF191January 8, 2026