Aprendizaje por Refuerzo Multi-Tarea Escalable para Inteligencia Espacial Generalizable en Agentes Visuomotores
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
July 31, 2025
Autores: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI
Resumen
Si bien el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha logrado un éxito notable en el modelado del lenguaje, su triunfo aún no se ha trasladado completamente a los agentes visomotores. Un desafío principal en los modelos de RL es su tendencia a sobreajustarse a tareas o entornos específicos, lo que dificulta la adquisición de comportamientos generalizables en diversos contextos. Este artículo ofrece una respuesta preliminar a este desafío al demostrar que los agentes visomotores ajustados mediante RL en Minecraft pueden lograr una generalización de cero disparos (zero-shot) a mundos no vistos. Específicamente, exploramos el potencial del RL para mejorar las capacidades de razonamiento espacial e interacción generalizables en mundos 3D. Para abordar los desafíos en la representación de RL multitarea, analizamos y establecemos la especificación de objetivos entre vistas como un espacio de objetivos unificado para políticas visomotoras. Además, para superar el cuello de botella significativo del diseño manual de tareas, proponemos la síntesis automatizada de tareas dentro del entorno altamente personalizable de Minecraft para el entrenamiento de RL multitarea a gran escala, y construimos un marco de RL distribuido eficiente para respaldar esto. Los resultados experimentales muestran que el RL aumenta significativamente las tasas de éxito de interacción en 4 veces y permite la generalización de cero disparos del razonamiento espacial en diversos entornos, incluidos los del mundo real. Nuestros hallazgos subrayan el inmenso potencial del entrenamiento de RL en entornos simulados en 3D, especialmente aquellos susceptibles a la generación de tareas a gran escala, para avanzar significativamente en el razonamiento espacial de los agentes visomotores.
English
While Reinforcement Learning (RL) has achieved remarkable success in language
modeling, its triumph hasn't yet fully translated to visuomotor agents. A
primary challenge in RL models is their tendency to overfit specific tasks or
environments, thereby hindering the acquisition of generalizable behaviors
across diverse settings. This paper provides a preliminary answer to this
challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can
achieve zero-shot generalization to unseen worlds. Specifically, we explore
RL's potential to enhance generalizable spatial reasoning and interaction
capabilities in 3D worlds. To address challenges in multi-task RL
representation, we analyze and establish cross-view goal specification as a
unified multi-task goal space for visuomotor policies. Furthermore, to overcome
the significant bottleneck of manual task design, we propose automated task
synthesis within the highly customizable Minecraft environment for large-scale
multi-task RL training, and we construct an efficient distributed RL framework
to support this. Experimental results show RL significantly boosts interaction
success rates by 4times and enables zero-shot generalization of spatial
reasoning across diverse environments, including real-world settings. Our
findings underscore the immense potential of RL training in 3D simulated
environments, especially those amenable to large-scale task generation, for
significantly advancing visuomotor agents' spatial reasoning.