ERA: Transformation von VLMs in verkörperte Agenten durch verkörpertes Prior-Lernen und Online-Verstärkungslernen
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
papers.authors: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
papers.abstract
Jüngste Fortschritte in der embodied AI unterstreichen das Potenzial von Vision-Language-Modellen (VLMs) als Agenten, die in der Lage sind, Wahrnehmung, Schlussfolgerung und Interaktion in komplexen Umgebungen zu ermöglichen. Allerdings stützen sich die leistungsstärksten Systeme auf großskalige Modelle, deren Einsatz kostspielig ist, während kleinere VLMs das notwendige Wissen und die Fähigkeiten für den Erfolg vermissen. Um diese Lücke zu schließen, präsentieren wir den Embodied Reasoning Agent (ERA), ein zweistufiges Framework, das Vorwissenlernen und Online-Reinforcement-Learning (RL) integriert. Die erste Stufe, Embodied Prior Learning, destilliert grundlegendes Wissen aus drei Arten von Daten: (1) Trajectory-Augmented Priors, die bestehende Trajektoriedaten mit strukturiertem Reasoning, das von stärkeren Modellen generiert wird, anreichern; (2) Environment-Anchored Priors, die in der Umgebung verankertes Wissen und Grounding-Supervision bereitstellen; und (3) External Knowledge Priors, die allgemeines Wissen aus außerhalb der Umgebung liegenden Datensätzen transferieren. In der zweiten Stufe entwickeln wir eine Online-RL-Pipeline, die auf diesen Priors aufbaut, um die Leistung des Agenten weiter zu verbessern. Um die inhärenten Herausforderungen im Agenten-RL, einschließlich langer Zeithorizonte, spärlicher Belohnungen und Trainingsinstabilität, zu überwinden, führen wir drei Schlüsseldesigns ein: Selbstzusammenfassung für das Kontextmanagement, dichte Belohnungsformung und turn-level Policy-Optimierung. Umfangreiche Experimente sowohl auf hochrangigen Planungsaufgaben (EB-ALFRED) als auch auf niederrangigen Steuerungsaufgaben (EB-Manipulation) zeigen, dass ERA-3B sowohl prompt-basierte große Modelle als auch bisherige trainierte Baselines übertrifft. Insbesondere erzielt es Gesamtverbesserungen von 8,4 % bei EB-ALFRED und 19,4 % bei EB-Manipulation gegenüber GPT-4o und zeigt eine starke Generalisierung auf unbekannte Aufgaben. Insgesamt bietet ERA einen praktischen Weg zur skalierbaren embodied Intelligence und liefert methodische Einblicke für zukünftige embodied AI-Systeme.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.