Skalierbares Multi-Task-Reinforcement-Learning für generalisierbare räumliche Intelligenz in visuomotorischen Agenten
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
July 31, 2025
papers.authors: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI
papers.abstract
Während Reinforcement Learning (RL) bemerkenswerte Erfolge in der Sprachmodellierung erzielt hat, hat sich dieser Triumph noch nicht vollständig auf visuomotorische Agenten übertragen. Eine zentrale Herausforderung bei RL-Modellen ist ihre Tendenz, sich auf spezifische Aufgaben oder Umgebungen zu spezialisieren, was den Erwerb generalisierbarer Verhaltensweisen über verschiedene Settings hinweg behindert. Diese Arbeit liefert eine vorläufige Antwort auf diese Herausforderung, indem sie zeigt, dass RL-feingetunte visuomotorische Agenten in Minecraft eine Zero-Shot-Generalisierung auf unbekannte Welten erreichen können. Insbesondere untersuchen wir das Potenzial von RL, generalisierbare räumliche Denk- und Interaktionsfähigkeiten in 3D-Welten zu verbessern. Um die Herausforderungen bei der Multi-Task-RL-Repräsentation zu bewältigen, analysieren und etablieren wir die spezifikationsübergreifende Zielangabe als einen einheitlichen Multi-Task-Zielraum für visuomotorische Policies. Darüber hinaus schlagen wir, um den erheblichen Engpass der manuellen Aufgabenentwürfe zu überwinden, die automatisierte Aufgaben-Synthese innerhalb der hochgradig anpassbaren Minecraft-Umgebung für das groß angelegte Multi-Task-RL-Training vor und entwickeln ein effizientes verteiltes RL-Framework, um dies zu unterstützen. Experimentelle Ergebnisse zeigen, dass RL die Interaktionserfolgsraten um das Vierfache steigert und die Zero-Shot-Generalisierung des räumlichen Denkens über verschiedene Umgebungen hinweg, einschließlich realer Settings, ermöglicht. Unsere Erkenntnisse unterstreichen das immense Potenzial des RL-Trainings in simulierten 3D-Umgebungen, insbesondere solchen, die sich für die groß angelegte Aufgaben-Generierung eignen, um das räumliche Denken visuomotorischer Agenten erheblich voranzutreiben.
English
While Reinforcement Learning (RL) has achieved remarkable success in language
modeling, its triumph hasn't yet fully translated to visuomotor agents. A
primary challenge in RL models is their tendency to overfit specific tasks or
environments, thereby hindering the acquisition of generalizable behaviors
across diverse settings. This paper provides a preliminary answer to this
challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can
achieve zero-shot generalization to unseen worlds. Specifically, we explore
RL's potential to enhance generalizable spatial reasoning and interaction
capabilities in 3D worlds. To address challenges in multi-task RL
representation, we analyze and establish cross-view goal specification as a
unified multi-task goal space for visuomotor policies. Furthermore, to overcome
the significant bottleneck of manual task design, we propose automated task
synthesis within the highly customizable Minecraft environment for large-scale
multi-task RL training, and we construct an efficient distributed RL framework
to support this. Experimental results show RL significantly boosts interaction
success rates by 4times and enables zero-shot generalization of spatial
reasoning across diverse environments, including real-world settings. Our
findings underscore the immense potential of RL training in 3D simulated
environments, especially those amenable to large-scale task generation, for
significantly advancing visuomotor agents' spatial reasoning.