ERA: Het transformeren van VLMs in belichaamde agenten via Embodied Prior Learning en online reinforcement learning
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
Auteurs: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in embodied AI benadrukken het potentieel van vision language-modellen (VLMs) als agenten die in staat zijn tot waarneming, redenering en interactie in complexe omgevingen. Toppresterende systemen zijn echter afhankelijk van grootschalige modellen die kostbaar zijn om te implementeren, terwijl kleinere VLMs het benodigde kennisniveau en de vaardigheden missen om succesvol te zijn. Om deze kloof te overbruggen, presenteren we Embodied Reasoning Agent (ERA), een tweestaps raamwerk dat voorafgaande kennisleren en online reinforcement learning (RL) integreert. De eerste fase, Embodied Prior Learning, destilleert fundamentele kennis uit drie soorten data: (1) Trajectory-Augmented Priors, die bestaande trajectgegevens verrijken met gestructureerde redenering gegenereerd door sterkere modellen; (2) Environment-Anchored Priors, die kennis en grondingssupervisie binnen de omgeving bieden; en (3) External Knowledge Priors, die algemene kennis overdragen vanuit datasets buiten de omgeving. In de tweede fase ontwikkelen we een online RL-pijplijn die voortbouwt op deze priors om de prestaties van de agent verder te verbeteren. Om de inherente uitdagingen in agent-RL, waaronder lange tijdshorizons, schaarse beloningen en trainingsinstabiliteit, te overwinnen, introduceren we drie belangrijke ontwerpen: zelf-samenvatting voor contextbeheer, dichte beloningsvorming en beleidsoptimalisatie op turn-niveau. Uitgebreide experimenten op zowel hoog-niveau plannings- (EB-ALFRED) als laag-niveau controle-taken (EB-Manipulation) tonen aan dat ERA-3B zowel prompting-gebaseerde grote modellen als eerdere training-gebaseerde benchmarks overtreft. Specifiek behaalt het algehele verbeteringen van 8,4% op EB-ALFRED en 19,4% op EB-Manipulation ten opzichte van GPT-4o, en vertoont het sterke generalisatie naar onbekende taken. Over het algemeen biedt ERA een praktische route naar schaalbare embodied intelligentie, en biedt het methodologische inzichten voor toekomstige embodied AI-systemen.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.