ChatPaper.aiChatPaper

Apprendimento per Rinforzo Multi-Task Scalabile per Intelligenza Spaziale Generalizzabile in Agenti Visuomotori

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
Autori: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

Abstract

Sebbene il Reinforcement Learning (RL) abbia ottenuto risultati notevoli nella modellazione del linguaggio, il suo successo non si è ancora pienamente tradotto negli agenti visuomotori. Una delle principali sfide nei modelli RL è la loro tendenza a sovradattarsi a compiti o ambienti specifici, ostacolando così l'acquisizione di comportamenti generalizzabili in contesti diversi. Questo articolo fornisce una risposta preliminare a questa sfida dimostrando che gli agenti visuomotori ottimizzati con RL in Minecraft possono ottenere una generalizzazione zero-shot in mondi non visti. Nello specifico, esploriamo il potenziale del RL per migliorare le capacità di ragionamento spaziale e di interazione generalizzabili in mondi 3D. Per affrontare le sfide nella rappresentazione multi-task del RL, analizziamo e stabiliamo la specificazione degli obiettivi cross-view come uno spazio di obiettivi multi-task unificato per le politiche visuomotorie. Inoltre, per superare il significativo collo di bottiglia della progettazione manuale dei compiti, proponiamo la sintesi automatizzata dei compiti all'interno dell'ambiente altamente personalizzabile di Minecraft per l'addestramento su larga scala di RL multi-task, e costruiamo un framework distribuito di RL efficiente per supportare questo processo. I risultati sperimentali mostrano che il RL aumenta significativamente i tassi di successo delle interazioni di 4 volte e consente la generalizzazione zero-shot del ragionamento spaziale in ambienti diversi, comprese le impostazioni del mondo reale. Le nostre scoperte sottolineano l'enorme potenziale dell'addestramento RL in ambienti simulati 3D, specialmente quelli adatti alla generazione su larga scala di compiti, per far avanzare significativamente il ragionamento spaziale degli agenti visuomotori.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF74August 1, 2025