ChatPaper.aiChatPaper

Масштабируемое многозадачное обучение с подкреплением для обобщаемого пространственного интеллекта у визуомоторных агентов

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
Авторы: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

Аннотация

Хотя обучение с подкреплением (Reinforcement Learning, RL) достигло значительных успехов в моделировании языка, его триумф еще не полностью перенесен на визомоторные агенты. Основная проблема моделей RL заключается в их склонности к переобучению на конкретных задачах или средах, что препятствует приобретению обобщаемых поведений в разнообразных условиях. В данной статье предлагается предварительный ответ на этот вызов, демонстрируя, что визомоторные агенты, дообученные с помощью RL в Minecraft, способны достичь обобщения на незнакомые миры без дополнительного обучения (zero-shot generalization). В частности, мы исследуем потенциал RL для улучшения обобщаемых способностей пространственного мышления и взаимодействия в трехмерных мирах. Для решения проблем многозадачного представления в RL мы анализируем и устанавливаем кросс-видовую спецификацию целей как унифицированное пространство целей для визомоторных политик. Кроме того, чтобы преодолеть значительное ограничение ручного проектирования задач, мы предлагаем автоматизированный синтез задач в высоко настраиваемой среде Minecraft для масштабного многозадачного обучения RL и разрабатываем эффективную распределенную RL-структуру для поддержки этого. Экспериментальные результаты показывают, что RL значительно повышает успешность взаимодействия в 4 раза и обеспечивает zero-shot обобщение пространственного мышления в разнообразных средах, включая реальные условия. Наши результаты подчеркивают огромный потенциал обучения RL в трехмерных симулированных средах, особенно тех, которые подходят для масштабной генерации задач, для значительного продвижения пространственного мышления визомоторных агентов.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF74August 1, 2025