ChatPaper.aiChatPaper

RLinf-VLA: Унифицированная и эффективная структура для обучения VLA+RL

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

October 8, 2025
Авторы: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI

Аннотация

Недавние достижения в области базовых моделей для обработки зрения и языка значительно продвинули мультимодальное понимание, рассуждение и генерацию, что вызвало всплеск интереса к расширению таких возможностей в физических средах с помощью моделей "зрение-язык-действие" (VLA). Однако большинство VLA-моделей по-прежнему обучаются с использованием контролируемой тонкой настройки (SFT), которая плохо справляется с обобщением при сдвигах распределения из-за накопления ошибок. Обучение с подкреплением (RL) предлагает перспективную альтернативу, напрямую оптимизируя выполнение задач через взаимодействие, но существующие попытки остаются разрозненными и не имеют единой платформы для справедливого и систематического сравнения архитектур моделей и алгоритмических решений. Чтобы устранить этот пробел, мы представляем RLinf-VLA — унифицированную и эффективную платформу для масштабируемого RL-обучения VLA-моделей. Система использует гибкий дизайн распределения ресурсов, решающий задачу интеграции рендеринга, обучения и вывода в RL+VLA обучении. В частности, для GPU-параллелизованных симуляторов RLinf-VLA реализует новый гибридный режим распределения с мелкозернистой конвейеризацией, достигая ускорения обучения в 1,61–1,88 раза. Через унифицированный интерфейс RLinf-VLA поддерживает разнообразные архитектуры VLA (например, OpenVLA, OpenVLA-OFT), несколько RL-алгоритмов (например, PPO, GRPO) и различные симуляторы (например, ManiSkill, LIBERO). В симуляции унифицированная модель достигает 98,11% на 130 задачах LIBERO и 97,66% на 25 задачах ManiSkill. Помимо эмпирической производительности, наше исследование формулирует набор лучших практик для применения RL к обучению VLA и выявляет новые закономерности в этой интеграции. Кроме того, мы представляем предварительное развертывание на реальном роботе Franka, где политики, обученные с помощью RL, демонстрируют более сильное обобщение по сравнению с политиками, обученными с использованием SFT. Мы видим RLinf-VLA как основу для ускорения и стандартизации исследований в области воплощенного интеллекта.
English
Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.
PDF302October 9, 2025