ChatPaper.aiChatPaper

SOP: Масштабируемая система онлайн-дообучения моделей «зрение-язык-действие»

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

January 6, 2026
Авторы: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI

Аннотация

Модели «зрение-язык-действие» (VLA) достигают высокой обобщающей способности за счет масштабного предварительного обучения, однако для реального развертывания, помимо широты охвата, требуется также экспертный уровень владения конкретными задачами. Существующие подходы к дообучению моделей VLA обычно являются офлайн-методами, ориентированными на одного робота или на конкретную задачу, что ограничивает эффективную адаптацию на основе собственной стратегии и масштабируемое обучение на основе взаимодействия в реальном мире. Мы представляем систему масштабируемого онлайн-дообучения (SOP), которая позволяет проводить онлайн-распределенное многозадачное дообучение моделей VLA общего назначения непосредственно в физическом мире. SOP тесно связывает исполнение и обучение через замкнутую архитектуру, в которой флот роботов непрерывно передает данные о взаимодействии по собственной стратегии и сигналы вмешательства человека в централизованное облако обучения, асинхронно получая обновленные политики. Такая конструкция обеспечивает оперативное исправление на основе собственной стратегии, масштабирует сбор опыта за счет параллельного развертывания и сохраняет общность в процессе адаптации. SOP не зависит от выбора алгоритма дообучения; мы реализуем ее как с помощью интерактивного обучения с подражанием (HG-DAgger), так и с помощью обучения с подкреплением (RECAP). На ряде задач манипулирования в реальном мире, включая складывание ткани, сборку коробок и пополнение товаров на полках, мы показываем, что SOP существенно повышает производительность больших предварительно обученных моделей VLA, сохраняя при этом единую общую политику для всех задач. Эффективное дообучение может быть достигнуто за несколько часов взаимодействия в реальном мире, а производительность масштабируется почти линейно с увеличением количества роботов во флоте. Эти результаты свидетельствуют о том, что тесная связь онлайн-обучения с развертыванием в масштабе флота является ключевым фактором для обеспечения эффективного, надежного и масштабируемого дообучения политик роботов общего назначения в физическом мире.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
PDF191January 8, 2026