Schaalbare Multi-Taak Versterkend Leren voor Generaliseerbare Ruimtelijke Intelligentie in Visuomotorische Agenten
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
July 31, 2025
Auteurs: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI
Samenvatting
Hoewel Reinforcement Learning (RL) opmerkelijke successen heeft geboekt in taalmodellering, is deze triomf nog niet volledig vertaald naar visuomotore agenten. Een primaire uitdaging bij RL-modellen is hun neiging om te overfitten op specifieke taken of omgevingen, wat het verwerven van generaliseerbaar gedrag over diverse situaties belemmert. Dit artikel biedt een voorlopig antwoord op deze uitdaging door aan te tonen dat RL-fijn afgestelde visuomotore agenten in Minecraft zero-shot generalisatie naar onbekende werelden kunnen bereiken. Specifiek onderzoeken we het potentieel van RL om generaliseerbare ruimtelijke redeneer- en interactievaardigheden in 3D-werelden te verbeteren. Om uitdagingen in multi-task RL-representatie aan te pakken, analyseren en vestigen we cross-view doel specificatie als een uniforme multi-task doelruimte voor visuomotore beleidsregels. Bovendien, om de aanzienlijke bottleneck van handmatige taakontwerpen te overwinnen, stellen we geautomatiseerde taaksynthese voor binnen de zeer aanpasbare Minecraft-omgeving voor grootschalige multi-task RL-training, en construeren we een efficiënt gedistribueerd RL-framework om dit te ondersteunen. Experimentele resultaten tonen aan dat RL de interactiesuccespercentages aanzienlijk verhoogt met een factor 4 en zero-shot generalisatie van ruimtelijk redeneren over diverse omgevingen mogelijk maakt, inclusief real-world settings. Onze bevindingen onderstrepen het immense potentieel van RL-training in gesimuleerde 3D-omgevingen, vooral die geschikt zijn voor grootschalige taakgeneratie, om de ruimtelijke redeneervaardigheden van visuomotore agenten aanzienlijk vooruit te helpen.
English
While Reinforcement Learning (RL) has achieved remarkable success in language
modeling, its triumph hasn't yet fully translated to visuomotor agents. A
primary challenge in RL models is their tendency to overfit specific tasks or
environments, thereby hindering the acquisition of generalizable behaviors
across diverse settings. This paper provides a preliminary answer to this
challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can
achieve zero-shot generalization to unseen worlds. Specifically, we explore
RL's potential to enhance generalizable spatial reasoning and interaction
capabilities in 3D worlds. To address challenges in multi-task RL
representation, we analyze and establish cross-view goal specification as a
unified multi-task goal space for visuomotor policies. Furthermore, to overcome
the significant bottleneck of manual task design, we propose automated task
synthesis within the highly customizable Minecraft environment for large-scale
multi-task RL training, and we construct an efficient distributed RL framework
to support this. Experimental results show RL significantly boosts interaction
success rates by 4times and enables zero-shot generalization of spatial
reasoning across diverse environments, including real-world settings. Our
findings underscore the immense potential of RL training in 3D simulated
environments, especially those amenable to large-scale task generation, for
significantly advancing visuomotor agents' spatial reasoning.