ERA: Преобразование визуально-языковых моделей в воплощённых агентов через обучение воплощённых приоритетов и онлайн-обучение с подкреплением
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
Авторы: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
Аннотация
Последние достижения в области воплощённого искусственного интеллекта подчеркивают потенциал моделей, объединяющих зрение и язык (VLMs), как агентов, способных к восприятию, рассуждению и взаимодействию в сложных средах. Однако наиболее эффективные системы полагаются на крупномасштабные модели, развёртывание которых требует значительных затрат, в то время как меньшие по размеру VLMs не обладают необходимыми знаниями и навыками для успешного выполнения задач. Чтобы преодолеть этот разрыв, мы представляем Embodied Reasoning Agent (ERA) — двухэтапную структуру, которая интегрирует предварительное обучение и онлайн-обучение с подкреплением (RL). На первом этапе, Embodied Prior Learning, извлекаются базовые знания из трёх типов данных: (1) Trajectory-Augmented Priors, которые обогащают существующие данные траекторий структурированными рассуждениями, сгенерированными более мощными моделями; (2) Environment-Anchored Priors, которые предоставляют знания о среде и контроль за её пониманием; и (3) External Knowledge Priors, которые переносят общие знания из наборов данных, не связанных с конкретной средой. На втором этапе разрабатывается онлайн-конвейер RL, который использует эти предварительные знания для дальнейшего повышения производительности агента. Чтобы преодолеть присущие RL агентам проблемы, такие как длительные временные горизонты, редкие награды и нестабильность обучения, мы вводим три ключевых элемента: само-суммирование для управления контекстом, формирование плотных наград и оптимизацию политики на уровне ходов. Эксперименты на задачах высокоуровневого планирования (EB-ALFRED) и низкоуровневого управления (EB-Manipulation) демонстрируют, что ERA-3B превосходит как крупные модели, основанные на подсказках, так и предыдущие базовые подходы, основанные на обучении. В частности, он достигает общего улучшения на 8,4% на EB-ALFRED и на 19,4% на EB-Manipulation по сравнению с GPT-4o и демонстрирует сильную обобщаемость на незнакомые задачи. В целом, ERA предлагает практический путь к масштабируемому воплощённому интеллекту, предоставляя методологические идеи для будущих систем воплощённого ИИ.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.