ChatPaper.aiChatPaper

ERA: 체화된 사전 학습과 온라인 강화 학습을 통해 시각-언어 모델을 체화 에이전트로 변환

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

October 14, 2025
저자: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI

초록

최근의 구체화된 AI(Embodied AI) 발전은 시각 언어 모델(VLMs)이 복잡한 환경에서 지각, 추론 및 상호작용이 가능한 에이전트로서의 잠재력을 강조하고 있습니다. 그러나 최고 성능의 시스템은 배포 비용이 높은 대규모 모델에 의존하는 반면, 소규모 VLMs는 성공하기 위해 필요한 지식과 기술이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 사전 지식 학습과 온라인 강화 학습(RL)을 통합한 두 단계 프레임워크인 Embodied Reasoning Agent(ERA)를 제시합니다. 첫 번째 단계인 Embodied Prior Learning은 세 가지 유형의 데이터로부터 기초 지식을 추출합니다: (1) Trajectory-Augmented Priors는 기존의 궤적 데이터를 더 강력한 모델이 생성한 구조화된 추론으로 보강합니다; (2) Environment-Anchored Priors는 환경 내 지식과 기반 감독을 제공합니다; (3) External Knowledge Priors는 환경 외 데이터셋에서 일반 지식을 전이합니다. 두 번째 단계에서는 이러한 사전 지식을 기반으로 에이전트 성능을 더욱 향상시키는 온라인 RL 파이프라인을 개발합니다. 에이전트 RL의 고질적인 문제인 긴 시간 지평, 희소한 보상, 훈련 불안정성을 극복하기 위해, 우리는 세 가지 주요 설계를 도입했습니다: 컨텍스트 관리를 위한 자기 요약(self-summarization), 밀집 보상 형성(dense reward shaping), 그리고 턴 단위 정책 최적화(turn-level policy optimization). 고수준 계획(EB-ALFRED)과 저수준 제어(EB-Manipulation) 작업에 대한 광범위한 실험을 통해 ERA-3B는 프롬프트 기반 대형 모델과 기존의 훈련 기반 베이스라인을 모두 능가함을 입증했습니다. 특히, GPT-4o 대비 EB-ALFRED에서 8.4%, EB-Manipulation에서 19.4%의 전반적인 성능 향상을 달성했으며, 보이지 않는 작업에 대한 강력한 일반화 능력을 보였습니다. 전반적으로, ERA는 확장 가능한 구체화된 지능을 향한 실용적인 경로를 제공하며, 향후 구체화된 AI 시스템을 위한 방법론적 통찰을 제공합니다.
English
Recent advances in embodied AI highlight the potential of vision language models (VLMs) as agents capable of perception, reasoning, and interaction in complex environments. However, top-performing systems rely on large-scale models that are costly to deploy, while smaller VLMs lack the necessary knowledge and skills to succeed. To bridge this gap, we present Embodied Reasoning Agent (ERA), a two-stage framework that integrates prior knowledge learning and online reinforcement learning (RL). The first stage, Embodied Prior Learning, distills foundational knowledge from three types of data: (1) Trajectory-Augmented Priors, which enrich existing trajectory data with structured reasoning generated by stronger models; (2) Environment-Anchored Priors, which provide in-environment knowledge and grounding supervision; and (3) External Knowledge Priors, which transfer general knowledge from out-of-environment datasets. In the second stage, we develop an online RL pipeline that builds on these priors to further enhance agent performance. To overcome the inherent challenges in agent RL, including long horizons, sparse rewards, and training instability, we introduce three key designs: self-summarization for context management, dense reward shaping, and turn-level policy optimization. Extensive experiments on both high-level planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate that ERA-3B surpasses both prompting-based large models and previous training-based baselines. Specifically, it achieves overall improvements of 8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits strong generalization to unseen tasks. Overall, ERA offers a practical path toward scalable embodied intelligence, providing methodological insights for future embodied AI systems.
PDF252October 15, 2025