ChatPaper.aiChatPaper

Skalierbares Multi-Task-Reinforcement-Learning für generalisierbare räumliche Intelligenz in visuomotorischen Agenten

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
papers.authors: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

papers.abstract

Während Reinforcement Learning (RL) bemerkenswerte Erfolge in der Sprachmodellierung erzielt hat, hat sich dieser Triumph noch nicht vollständig auf visuomotorische Agenten übertragen. Eine zentrale Herausforderung bei RL-Modellen ist ihre Tendenz, sich auf spezifische Aufgaben oder Umgebungen zu spezialisieren, was den Erwerb generalisierbarer Verhaltensweisen über verschiedene Settings hinweg behindert. Diese Arbeit liefert eine vorläufige Antwort auf diese Herausforderung, indem sie zeigt, dass RL-feingetunte visuomotorische Agenten in Minecraft eine Zero-Shot-Generalisierung auf unbekannte Welten erreichen können. Insbesondere untersuchen wir das Potenzial von RL, generalisierbare räumliche Denk- und Interaktionsfähigkeiten in 3D-Welten zu verbessern. Um die Herausforderungen bei der Multi-Task-RL-Repräsentation zu bewältigen, analysieren und etablieren wir die spezifikationsübergreifende Zielangabe als einen einheitlichen Multi-Task-Zielraum für visuomotorische Policies. Darüber hinaus schlagen wir, um den erheblichen Engpass der manuellen Aufgabenentwürfe zu überwinden, die automatisierte Aufgaben-Synthese innerhalb der hochgradig anpassbaren Minecraft-Umgebung für das groß angelegte Multi-Task-RL-Training vor und entwickeln ein effizientes verteiltes RL-Framework, um dies zu unterstützen. Experimentelle Ergebnisse zeigen, dass RL die Interaktionserfolgsraten um das Vierfache steigert und die Zero-Shot-Generalisierung des räumlichen Denkens über verschiedene Umgebungen hinweg, einschließlich realer Settings, ermöglicht. Unsere Erkenntnisse unterstreichen das immense Potenzial des RL-Trainings in simulierten 3D-Umgebungen, insbesondere solchen, die sich für die groß angelegte Aufgaben-Generierung eignen, um das räumliche Denken visuomotorischer Agenten erheblich voranzutreiben.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF74August 1, 2025