SOP: un sistema scalabile di post-addestramento online per modelli visione-linguaggio-azione
SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
January 6, 2026
Autori: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) raggiungono una forte generalizzazione attraverso un pre-addestramento su larga scala, ma il dispiegamento nel mondo reale richiede una competenza di livello esperto nei compiti, oltre a un'ampia generalità. Gli approcci di post-addestramento esistenti per i modelli VLA sono tipicamente offline, a singolo robot o specifici per compito, limitando un'adattamento efficace on-policy e un apprendimento scalabile dall'interazione nel mondo reale. Introduciamo un sistema di Post-Addestramento Online Scalabile (SOP) che abilita il post-addestramento online, distribuito e multi-task di modelli VLA generalisti direttamente nel mondo fisico. SOP accoppia strettamente esecuzione e apprendimento attraverso un'architettura a ciclo chiuso in cui una flotta di robot trasmette continuamente esperienze on-policy e segnali di intervento umano a un learner cloud centralizzato, e riceve in modo asincrono politiche aggiornate. Questo progetto supporta una correzione on-policy immediata, scala la raccolta di esperienze attraverso il dispiegamento parallelo e preserva la generalità durante l'adattamento. SOP è agnostico rispetto alla scelta dell'algoritmo di post-addestramento; lo istanziamo sia con l'apprendimento per imitazione interattivo (HG-DAgger) che con l'apprendimento per rinforzo (RECAP). In una serie di compiti di manipolazione nel mondo reale, tra cui piegare indumenti, assemblare scatole e rifornire scaffali di generi alimentari, mostriamo che SOP migliora sostanzialmente le prestazioni di grandi modelli VLA pre-addestrati, mantenendo al contempo una singola politica condivisa tra i compiti. Un post-addestramento efficace può essere raggiunto in poche ore di interazione nel mondo reale e le prestazioni scalano in modo quasi lineare con il numero di robot nella flotta. Questi risultati suggeriscono che l'accoppiamento stretto dell'apprendimento online con il dispiegamento su scala di flotta è fondamentale per abilitare un post-addestramento efficiente, affidabile e scalabile di politiche robotiche generaliste nel mondo fisico.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.