확장 가능한 다중 작업 강화 학습을 통한 시각운동 에이전트의 일반화 가능한 공간 지능
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
July 31, 2025
저자: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang
cs.AI
초록
강화학습(Reinforcement Learning, RL)은 언어 모델링 분야에서 주목할 만한 성과를 거두었으나, 이러한 성공이 아직까지 시각운동 에이전트(visuomotor agents)로 완전히 확장되지는 못하고 있다. RL 모델의 주요 과제 중 하나는 특정 작업이나 환경에 과적합(overfit)하는 경향으로 인해 다양한 설정에서 일반화 가능한 행동을 습득하는 데 방해가 된다는 점이다. 본 논문은 이러한 과제에 대한 예비적인 해결책을 제시하며, Minecraft 환경에서 RL로 미세 조정된 시각운동 에이전트가 보지 못한 세계에 대해 제로샷 일반화(zero-shot generalization)를 달성할 수 있음을 입증한다. 구체적으로, 우리는 3D 세계에서 일반화 가능한 공간 추론 및 상호작용 능력을 향상시키기 위한 RL의 잠재력을 탐구한다. 다중 작업 RL 표현의 과제를 해결하기 위해, 우리는 시각운동 정책을 위한 통합 다중 작업 목표 공간으로서 교차 뷰 목표 지정(cross-view goal specification)을 분석하고 확립한다. 또한, 수동 작업 설계의 주요 병목 현상을 극복하기 위해, 고도로 사용자 정의 가능한 Minecraft 환경 내에서 대규모 다중 작업 RL 훈련을 위한 자동화된 작업 합성(automated task synthesis)을 제안하고, 이를 지원하기 위한 효율적인 분산 RL 프레임워크를 구축한다. 실험 결과는 RL이 상호작용 성공률을 4배 증가시키고, 실제 세계 설정을 포함한 다양한 환경에서 공간 추론의 제로샷 일반화를 가능하게 함을 보여준다. 우리의 연구 결과는 대규모 작업 생성이 가능한 3D 시뮬레이션 환경에서의 RL 훈련이 시각운동 에이전트의 공간 추론 능력을 크게 발전시킬 수 있는 엄청난 잠재력을 강조한다.
English
While Reinforcement Learning (RL) has achieved remarkable success in language
modeling, its triumph hasn't yet fully translated to visuomotor agents. A
primary challenge in RL models is their tendency to overfit specific tasks or
environments, thereby hindering the acquisition of generalizable behaviors
across diverse settings. This paper provides a preliminary answer to this
challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can
achieve zero-shot generalization to unseen worlds. Specifically, we explore
RL's potential to enhance generalizable spatial reasoning and interaction
capabilities in 3D worlds. To address challenges in multi-task RL
representation, we analyze and establish cross-view goal specification as a
unified multi-task goal space for visuomotor policies. Furthermore, to overcome
the significant bottleneck of manual task design, we propose automated task
synthesis within the highly customizable Minecraft environment for large-scale
multi-task RL training, and we construct an efficient distributed RL framework
to support this. Experimental results show RL significantly boosts interaction
success rates by 4times and enables zero-shot generalization of spatial
reasoning across diverse environments, including real-world settings. Our
findings underscore the immense potential of RL training in 3D simulated
environments, especially those amenable to large-scale task generation, for
significantly advancing visuomotor agents' spatial reasoning.