ChatPaper.aiChatPaper

ERA: Преобразование визуально-языковых моделей в воплощённых агентов через обучение воплощённых приоритетов и онлайн-обучение с подкреплением

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

October 14, 2025
Авторы: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI

Аннотация

Последние достижения в области воплощённого искусственного интеллекта подчеркивают потенциал моделей, объединяющих зрение и язык (VLMs), как агентов, способных к восприятию, рассуждению и взаимодействию в сложных средах. Однако наиболее эффективные системы полагаются на крупномасштабные модели, развёртывание которых требует значительных затрат, в то время как меньшие по размеру VLMs не обладают необходимыми знаниями и навыками для успешного выполнения задач. Чтобы преодолеть этот разрыв, мы представляем Embodied Reasoning Agent (ERA) — двухэтапную структуру, которая интегрирует предварительное обучение и онлайн-обучение с подкреплением (RL). На первом этапе, Embodied Prior Learning, извлекаются базовые знания из трёх типов данных: (1) Trajectory-Augmented Priors, которые обогащают существующие данные траекторий структурированными рассуждениями, сгенерированными более мощными моделями; (2) Environment-Anchored Priors, которые предоставляют знания о среде и контроль за её пониманием; и (3) External Knowledge Priors, которые переносят общие знания из наборов данных, не связанных с конкретной средой. На втором этапе разрабатывается онлайн-конвейер RL, который использует эти предварительные знания для дальнейшего повышения производительности агента. Чтобы преодолеть присущие RL агентам проблемы, такие как длительные временные горизонты, редкие награды и нестабильность обучения, мы вводим три ключевых элемента: само-суммирование для управления контекстом, формирование плотных наград и оптимизацию политики на уровне ходов. Эксперименты на задачах высокоуровневого планирования (EB-ALFRED) и низкоуровневого управления (EB-Manipulation) демонстрируют, что ERA-3B превосходит как крупные модели, основанные на подсказках, так и предыдущие базовые подходы, основанные на обучении. В частности, он достигает общего улучшения на 8,4% на EB-ALFRED и на 19,4% на EB-Manipulation по сравнению с GPT-4o и демонстрирует сильную обобщаемость на незнакомые задачи. В целом, ERA предлагает практический путь к масштабируемому воплощённому интеллекту, предоставляя методологические идеи для будущих систем воплощённого ИИ.
English
Recent advances in embodied AI highlight the potential of vision language models (VLMs) as agents capable of perception, reasoning, and interaction in complex environments. However, top-performing systems rely on large-scale models that are costly to deploy, while smaller VLMs lack the necessary knowledge and skills to succeed. To bridge this gap, we present Embodied Reasoning Agent (ERA), a two-stage framework that integrates prior knowledge learning and online reinforcement learning (RL). The first stage, Embodied Prior Learning, distills foundational knowledge from three types of data: (1) Trajectory-Augmented Priors, which enrich existing trajectory data with structured reasoning generated by stronger models; (2) Environment-Anchored Priors, which provide in-environment knowledge and grounding supervision; and (3) External Knowledge Priors, which transfer general knowledge from out-of-environment datasets. In the second stage, we develop an online RL pipeline that builds on these priors to further enhance agent performance. To overcome the inherent challenges in agent RL, including long horizons, sparse rewards, and training instability, we introduce three key designs: self-summarization for context management, dense reward shaping, and turn-level policy optimization. Extensive experiments on both high-level planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate that ERA-3B surpasses both prompting-based large models and previous training-based baselines. Specifically, it achieves overall improvements of 8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits strong generalization to unseen tasks. Overall, ERA offers a practical path toward scalable embodied intelligence, providing methodological insights for future embodied AI systems.
PDF252October 15, 2025