ERA: 具象化事前学習とオンライン強化学習による視覚言語モデルから具象化エージェントへの変革
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
著者: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
要旨
近年のエンボディドAIの進展は、複雑な環境における知覚、推論、相互作用が可能なエージェントとしての視覚言語モデル(VLM)の可能性を浮き彫りにしている。しかし、最高性能のシステムは大規模モデルに依存しており、展開コストが高く、一方で小規模なVLMは成功に必要な知識とスキルを欠いている。このギャップを埋めるため、我々は事前知識学習とオンライン強化学習(RL)を統合した二段階フレームワークであるEmbodied Reasoning Agent(ERA)を提案する。第一段階のEmbodied Prior Learningでは、三種類のデータから基礎知識を蒸留する:(1)Trajectory-Augmented Priorsは、既存の軌跡データをより強力なモデルによって生成された構造化推論で強化する;(2)Environment-Anchored Priorsは、環境内の知識とグラウンディング監視を提供する;(3)External Knowledge Priorsは、環境外のデータセットから一般的な知識を転移する。第二段階では、これらの事前知識を基盤としてエージェントの性能をさらに向上させるオンラインRLパイプラインを開発する。エージェントRLに内在する課題、すなわち長い時間軸、疎な報酬、訓練の不安定性を克服するため、我々は三つの主要な設計を導入する:コンテキスト管理のための自己要約、密な報酬形成、ターンレベルのポリシー最適化である。高レベルの計画(EB-ALFRED)と低レベルの制御(EB-Manipulation)タスクにおける広範な実験により、ERA-3Bがプロンプトベースの大規模モデルや従来の訓練ベースのベースラインを凌駕することが示された。具体的には、EB-ALFREDで8.4%、EB-Manipulationで19.4%の全体的な改善をGPT-4oに対して達成し、未見のタスクに対する強い汎化能力を示した。全体として、ERAはスケーラブルなエンボディドインテリジェンスに向けた実用的な道筋を提供し、将来のエンボディドAIシステムに対する方法論的洞察を与えるものである。
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.