Масштабируемое многозадачное обучение с подкреплением для обобщаемого пространственного интеллекта у визуомоторных агентов
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
July 31, 2025
Авторы: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI
Аннотация
Хотя обучение с подкреплением (Reinforcement Learning, RL) достигло значительных успехов в моделировании языка, его триумф еще не полностью перенесен на визомоторные агенты. Основная проблема моделей RL заключается в их склонности к переобучению на конкретных задачах или средах, что препятствует приобретению обобщаемых поведений в разнообразных условиях. В данной статье предлагается предварительный ответ на этот вызов, демонстрируя, что визомоторные агенты, дообученные с помощью RL в Minecraft, способны достичь обобщения на незнакомые миры без дополнительного обучения (zero-shot generalization). В частности, мы исследуем потенциал RL для улучшения обобщаемых способностей пространственного мышления и взаимодействия в трехмерных мирах. Для решения проблем многозадачного представления в RL мы анализируем и устанавливаем кросс-видовую спецификацию целей как унифицированное пространство целей для визомоторных политик. Кроме того, чтобы преодолеть значительное ограничение ручного проектирования задач, мы предлагаем автоматизированный синтез задач в высоко настраиваемой среде Minecraft для масштабного многозадачного обучения RL и разрабатываем эффективную распределенную RL-структуру для поддержки этого. Экспериментальные результаты показывают, что RL значительно повышает успешность взаимодействия в 4 раза и обеспечивает zero-shot обобщение пространственного мышления в разнообразных средах, включая реальные условия. Наши результаты подчеркивают огромный потенциал обучения RL в трехмерных симулированных средах, особенно тех, которые подходят для масштабной генерации задач, для значительного продвижения пространственного мышления визомоторных агентов.
English
While Reinforcement Learning (RL) has achieved remarkable success in language
modeling, its triumph hasn't yet fully translated to visuomotor agents. A
primary challenge in RL models is their tendency to overfit specific tasks or
environments, thereby hindering the acquisition of generalizable behaviors
across diverse settings. This paper provides a preliminary answer to this
challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can
achieve zero-shot generalization to unseen worlds. Specifically, we explore
RL's potential to enhance generalizable spatial reasoning and interaction
capabilities in 3D worlds. To address challenges in multi-task RL
representation, we analyze and establish cross-view goal specification as a
unified multi-task goal space for visuomotor policies. Furthermore, to overcome
the significant bottleneck of manual task design, we propose automated task
synthesis within the highly customizable Minecraft environment for large-scale
multi-task RL training, and we construct an efficient distributed RL framework
to support this. Experimental results show RL significantly boosts interaction
success rates by 4times and enables zero-shot generalization of spatial
reasoning across diverse environments, including real-world settings. Our
findings underscore the immense potential of RL training in 3D simulated
environments, especially those amenable to large-scale task generation, for
significantly advancing visuomotor agents' spatial reasoning.