SOP: 시각-언어-행동 모델을 위한 확장 가능한 온라인 사후 학습 시스템
SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
January 6, 2026
저자: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI
초록
비전-언어-행동(VLA) 모델은 대규모 사전 학습을 통해 강력한 일반화 능력을 달성하지만, 실제 환경 적용에는 광범위한 일반성 외에도 전문가 수준의 작업 숙련도가 요구됩니다. 기존 VLA 모델 사후 학습 방법은 주로 오프라인, 단일 로봇, 또는 특정 작업에 국한되어 있어 효과적인 온-정책 적응과 실제 상호작용으로부터의 확장 가능한 학습에 한계가 있습니다. 본 연구에서는 일반적 VLA 모델의 물리적 현장에서의 온라인 분산 다중 작업 사후 학습을 가능하게 하는 확장 가능 온라인 사후 학습(SOP) 시스템을 소개합니다. SOP는 로봇 군집이 지속적으로 온-정책 경험과 인간 개입 신호를 중앙 집중식 클라우드 학습기에 전송하고, 비동기적으로 갱신된 정책을 수신하는 폐쇄 루프 구조를 통해 실행과 학습을 긴밀하게 결합합니다. 이 설계는 신속한 온-정책 수정을 지원하며 병렬 배치를 통한 경험 수집 확장성을 제공하고 적응 과정에서 일반성을 유지합니다. SOP는 사후 학습 알고리즘 선택에 독립적이며, 우리는 상호작용적 모방 학습(HG-DAgger)과 강화 학습(RECAP)을 통해 이를 구현합니다. 옷 접기, 상자 조립, 식품 재고 보충 등 다양한 실제 조작 작업에서 SOP는 대규모 사전 학습 VLA 모델의 성능을 작업 간 단일 공유 정책을 유지하면서 크게 향상시킵니다. 효과적인 사후 학습은 수시간 내의 실제 상호작용으로 달성 가능하며, 성능은 군집 내 로봇 대수에 따라 준선형적으로 확장됩니다. 이러한 결과는 온라인 학습과 군집 규모 배치의 긴밀한 결합이 물리적 세계에서 일반적 로봇 정책의 효율적, 신뢰적, 확장 가능한 사후 학습을 가능하게 하는 핵심 요소임을 시사합니다.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.