ChatPaper.aiChatPaper

Schaalbare Multi-Taak Versterkend Leren voor Generaliseerbare Ruimtelijke Intelligentie in Visuomotorische Agenten

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
Auteurs: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

Samenvatting

Hoewel Reinforcement Learning (RL) opmerkelijke successen heeft geboekt in taalmodellering, is deze triomf nog niet volledig vertaald naar visuomotore agenten. Een primaire uitdaging bij RL-modellen is hun neiging om te overfitten op specifieke taken of omgevingen, wat het verwerven van generaliseerbaar gedrag over diverse situaties belemmert. Dit artikel biedt een voorlopig antwoord op deze uitdaging door aan te tonen dat RL-fijn afgestelde visuomotore agenten in Minecraft zero-shot generalisatie naar onbekende werelden kunnen bereiken. Specifiek onderzoeken we het potentieel van RL om generaliseerbare ruimtelijke redeneer- en interactievaardigheden in 3D-werelden te verbeteren. Om uitdagingen in multi-task RL-representatie aan te pakken, analyseren en vestigen we cross-view doel specificatie als een uniforme multi-task doelruimte voor visuomotore beleidsregels. Bovendien, om de aanzienlijke bottleneck van handmatige taakontwerpen te overwinnen, stellen we geautomatiseerde taaksynthese voor binnen de zeer aanpasbare Minecraft-omgeving voor grootschalige multi-task RL-training, en construeren we een efficiënt gedistribueerd RL-framework om dit te ondersteunen. Experimentele resultaten tonen aan dat RL de interactiesuccespercentages aanzienlijk verhoogt met een factor 4 en zero-shot generalisatie van ruimtelijk redeneren over diverse omgevingen mogelijk maakt, inclusief real-world settings. Onze bevindingen onderstrepen het immense potentieel van RL-training in gesimuleerde 3D-omgevingen, vooral die geschikt zijn voor grootschalige taakgeneratie, om de ruimtelijke redeneervaardigheden van visuomotore agenten aanzienlijk vooruit te helpen.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF74August 1, 2025