ChatPaper.aiChatPaper

SOP: Un Sistema Escalable de Post-Entrenamiento en Línea para Modelos Visión-Lenguaje-Acción

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

January 6, 2026
Autores: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
cs.AI

Resumen

Los modelos visión-lenguaje-acción (VLA) logran una fuerte generalización mediante el pre-entrenamiento a gran escala, pero el despliegue en entornos reales exige un dominio experto de tareas específicas además de una amplia generalidad. Los enfoques de post-entrenamiento existentes para modelos VLA suelen ser offline, de un solo robot o específicos por tarea, lo que limita la adaptación eficaz bajo la política actual y el aprendizaje escalable a partir de la interacción en el mundo real. Presentamos un sistema de Post-entrenamiento Escalable Online (SOP) que permite el post-entrenamiento online, distribuido y multitarea de modelos VLA generalistas directamente en el mundo físico. SOP acopla estrechamente la ejecución y el aprendizaje mediante una arquitectura de ciclo cerrado en la que una flota de robots transmite continuamente experiencias bajo la política actual y señales de intervención humana a un aprendiz centralizado en la nube, y recibe asincrónicamente políticas actualizadas. Este diseño permite una corrección inmediata bajo la política actual, escala la recolección de experiencia mediante el despliegue paralelo y preserva la generalidad durante la adaptación. SOP es agnóstico a la elección del algoritmo de post-entrenamiento; lo instanciamos tanto con aprendizaje por imitación interactiva (HG-DAgger) como con aprendizaje por refuerzo (RECAP). En una variedad de tareas de manipulación del mundo real que incluyen doblar ropa, ensamblar cajas y reabastecer productos de supermercado, demostramos que SOP mejora sustancialmente el rendimiento de grandes modelos VLA preentrenados mientras mantiene una única política compartida entre tareas. Se puede lograr un post-entrenamiento efectivo en cuestión de horas de interacción en el mundo real, y el rendimiento escala de forma casi lineal con el número de robots en la flota. Estos resultados sugieren que el acoplamiento estrecho del aprendizaje online con el despliegue a escala de flota es fundamental para permitir un post-entrenamiento eficiente, fiable y escalable de políticas de robots generalistas en el mundo físico.
English
Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
PDF191January 8, 2026