Aprendizaje por Refuerzo Multi-Tarea Escalable para Inteligencia Espacial Generalizable en Agentes Visuomotores

Resumen

Si bien el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha logrado un éxito notable en el modelado del lenguaje, su triunfo aún no se ha trasladado completamente a los agentes visomotores. Un desafío principal en los modelos de RL es su tendencia a sobreajustarse a tareas o entornos específicos, lo que dificulta la adquisición de comportamientos generalizables en diversos contextos. Este artículo ofrece una respuesta preliminar a este desafío al demostrar que los agentes visomotores ajustados mediante RL en Minecraft pueden lograr una generalización de cero disparos (zero-shot) a mundos no vistos. Específicamente, exploramos el potencial del RL para mejorar las capacidades de razonamiento espacial e interacción generalizables en mundos 3D. Para abordar los desafíos en la representación de RL multitarea, analizamos y establecemos la especificación de objetivos entre vistas como un espacio de objetivos unificado para políticas visomotoras. Además, para superar el cuello de botella significativo del diseño manual de tareas, proponemos la síntesis automatizada de tareas dentro del entorno altamente personalizable de Minecraft para el entrenamiento de RL multitarea a gran escala, y construimos un marco de RL distribuido eficiente para respaldar esto. Los resultados experimentales muestran que el RL aumenta significativamente las tasas de éxito de interacción en 4 veces y permite la generalización de cero disparos del razonamiento espacial en diversos entornos, incluidos los del mundo real. Nuestros hallazgos subrayan el inmenso potencial del entrenamiento de RL en entornos simulados en 3D, especialmente aquellos susceptibles a la generación de tareas a gran escala, para avanzar significativamente en el razonamiento espacial de los agentes visomotores.

English

While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by 4times and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.

Aprendizaje por Refuerzo Multi-Tarea Escalable para Inteligencia Espacial Generalizable en Agentes Visuomotores

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

Resumen

Support