ChatPaper.aiChatPaper

Aprendizado por Reforço Multi-Tarefa Escalável para Inteligência Espacial Generalizável em Agentes Visuomotores

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

July 31, 2025
Autores: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI

Resumo

Embora o Aprendizado por Reforço (RL) tenha alcançado sucesso notável na modelagem de linguagem, seu triunfo ainda não foi totalmente transferido para agentes visuomotores. Um desafio primário nos modelos de RL é sua tendência a se ajustar excessivamente a tarefas ou ambientes específicos, dificultando assim a aquisição de comportamentos generalizáveis em diversos cenários. Este artigo oferece uma resposta preliminar a esse desafio, demonstrando que agentes visuomotores ajustados por RL no Minecraft podem alcançar generalização zero-shot para mundos não vistos. Especificamente, exploramos o potencial do RL para aprimorar capacidades generalizáveis de raciocínio espacial e interação em mundos 3D. Para abordar os desafios na representação de RL multitarefa, analisamos e estabelecemos a especificação de objetivos entre visões como um espaço de objetivos unificado para políticas visuomotoras. Além disso, para superar o significativo gargalo do design manual de tarefas, propomos a síntese automatizada de tarefas dentro do ambiente altamente personalizável do Minecraft para treinamento de RL em larga escala multitarefa, e construímos um framework distribuído de RL eficiente para suportar isso. Resultados experimentais mostram que o RL aumenta significativamente as taxas de sucesso de interação em 4 vezes e permite a generalização zero-shot do raciocínio espacial em diversos ambientes, incluindo configurações do mundo real. Nossas descobertas destacam o imenso potencial do treinamento de RL em ambientes simulados 3D, especialmente aqueles passíveis de geração de tarefas em larga escala, para avançar significativamente o raciocínio espacial de agentes visuomotoras.
English
While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
PDF84August 1, 2025