ChatPaper.aiChatPaper

Apprentissage par Renforcement Multi-Tâches Évolutif pour une Intelligence Spatiale Généralisable chez les Agents Visuomoteurs

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
papers.authors: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

papers.abstract

Bien que l'apprentissage par renforcement (Reinforcement Learning, RL) ait obtenu des succès remarquables dans la modélisation du langage, son triomphe ne s'est pas encore pleinement étendu aux agents visuomoteurs. Un défi majeur des modèles RL réside dans leur tendance à surajuster des tâches ou environnements spécifiques, entravant ainsi l'acquisition de comportements généralisables dans divers contextes. Cet article apporte une réponse préliminaire à ce défi en démontrant que des agents visuomoteurs affinés par RL dans Minecraft peuvent réaliser une généralisation zero-shot à des mondes inédits. Plus précisément, nous explorons le potentiel du RL pour améliorer les capacités de raisonnement spatial et d'interaction généralisables dans des mondes 3D. Pour relever les défis liés à la représentation multi-tâches en RL, nous analysons et établissons la spécification d'objectifs inter-vues comme un espace d'objectifs unifié pour les politiques visuomotrices. Par ailleurs, pour surmonter le goulot d'étranglement significatif que représente la conception manuelle de tâches, nous proposons une synthèse automatisée de tâches dans l'environnement hautement personnalisable de Minecraft pour un entraînement RL multi-tâches à grande échelle, et nous construisons un cadre RL distribué efficace pour le supporter. Les résultats expérimentaux montrent que le RL augmente significativement les taux de réussite des interactions par un facteur de 4 et permet une généralisation zero-shot du raisonnement spatial dans divers environnements, y compris des contextes du monde réel. Nos conclusions soulignent le potentiel immense de l'entraînement RL dans des environnements simulés en 3D, en particulier ceux propices à la génération de tâches à grande échelle, pour faire progresser considérablement le raisonnement spatial des agents visuomoteurs.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF74August 1, 2025