SOP: Ein skalierbares Online-Post-Training-System für Vision-Language-Action-Modelle
SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
January 6, 2026
papers.authors: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle erreichen eine starke Generalisierungsfähigkeit durch groß angelegtes Pre-Training. Für den realen Einsatz ist jedoch neben breiter Allgemeingültigkeit auch eine expertenleveltaugliche Aufgabenbewältigung erforderlich. Bisherige Nachtrainierungsansätze für VLA-Modelle sind typischerweise offline, Einzelroboter- oder aufgabenspezifisch, was eine effektive On-Policy-Anpassung und skalierbares Lernen aus realen Interaktionen einschränkt. Wir stellen ein skalierbares Online-Nachtrainierungs- (SOP) System vor, das ein online, verteiltes und multitask-fähiges Nachtraining generalistischer VLA-Modelle direkt in der physischen Welt ermöglicht. SOP koppelt Ausführung und Lernen engmaschig durch eine Closed-Loop-Architektur, in der eine Roboterflotte kontinuierlich On-Policy-Erfahrungen und menschliche Eingriffssignale an einen zentralen Cloud-Lerner streamt und asynchron aktualisierte Policies erhält. Dieser Entwurf unterstützt eine prompte On-Policy-Korrektur, skaliert die Datensammlung durch parallelen Einsatz und bewahrt die Generalität während der Anpassung. SOP ist unabhängig vom gewählten Nachtrainierungsalgorithmus; wir implementieren es sowohl mit interaktivem Imitationslernen (HG-DAgger) als auch mit bestärkendem Lernen (RECAP). In einer Reihe von realen Manipulationsaufgaben, darunter das Falten von Tüchern, der Zusammenbau von Kartons und das Auffüllen von Regalen, zeigen wir, dass SOP die Leistung großer vortrainierter VLA-Modelle erheblich verbessert, während eine einzige, aufgabenübergreifend gemeinsame Policy beibehalten wird. Ein effektives Nachtraining kann innerhalb von Stunden realer Interaktion erreicht werden, und die Leistung skaliert nahezu linear mit der Anzahl der Roboter in der Flotte. Diese Ergebnisse legen nahe, dass die enge Kopplung von Online-Lernen mit Flotteneinsätzen entscheidend ist, um ein effizientes, zuverlässiges und skalierbares Nachtraining generalistischer Robotik-Policies in der physischen Welt zu ermöglichen.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.