ChatPaper.aiChatPaper

SOP: 視覚-言語-行動モデルのためのスケーラブルなオンライン学習後システム

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

January 6, 2026
著者: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI

要旨

視覚言語行動(VLA)モデルは大規模事前学習によって強力な汎化性能を達成するが、実世界での展開には広範な汎用性に加えて専門家レベルのタスク熟達度が求められる。既存のVLAモデル向け事後学習手法は、通常オフライン・単一ロボット・タスク特化型であり、効果的なオン方策適応や実世界相互作用からのスケーラブルな学習を制限している。本研究では、汎用VLAモデルの物理世界におけるオンライン分散型マルチタスク事後学習を可能にするスケーラブルオンライン事後学習(SOP)システムを提案する。SOPは、ロボット群がオン方策経験と人間介入信号を集中型クラウド学習器に継続的にストリーミングし、非同期で更新されたポリシーを受信する閉ループアーキテクチャにより、実行と学習を緊密に連携させる。この設計は即時的なオン方策修正を支援し、並列展開による経験収集をスケールさせ、適応過程中の汎用性を維持する。SOPは事後学習アルゴリズムの選択に非依存であり、対模倣学習(HG-DAgger)と強化学習(RECAP)の両方で実装した。布の畳み込み、箱の組み立て、食料品の補充を含む実世界の多様なマニピュレーションタスクにおいて、SOPが大規模事前学習VLAモデルの性能をタスク横断的な単一共存ポリシーを維持しながら大幅に改善することを示す。効果的な事後学習は数時間の実世界相互作用で達成可能であり、性能はロボット群の台数にほぼ線形にスケーリングする。これらの結果は、オンライン学習とフリート規模の展開を緊密に結合することが、物理世界における汎用ロボットポリシーの効率的・信頼性の高い・スケーラブルな事後学習を実現する上で重要であることを示唆する。
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
PDF191January 8, 2026