ERA : Transformer les modèles de langage visuel en agents incarnés via l'apprentissage de connaissances préalables incarnées et l'apprentissage par renforcement en ligne
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
papers.authors: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
papers.abstract
Les avancées récentes dans l'intelligence artificielle incarnée mettent en lumière le potentiel des modèles de vision et de langage (VLMs) en tant qu'agents capables de perception, de raisonnement et d'interaction dans des environnements complexes. Cependant, les systèmes les plus performants reposent sur des modèles à grande échelle coûteux à déployer, tandis que les VLMs plus petits manquent des connaissances et des compétences nécessaires pour réussir. Pour combler cette lacune, nous présentons l'Agent de Raisonnement Incarné (ERA), un cadre en deux étapes qui intègre l'apprentissage de connaissances préalables et l'apprentissage par renforcement en ligne (RL). La première étape, l'Apprentissage Préalable Incarné, distille des connaissances fondamentales à partir de trois types de données : (1) les Connaissances Préalables Augmentées par Trajectoires, qui enrichissent les données de trajectoire existantes avec un raisonnement structuré généré par des modèles plus puissants ; (2) les Connaissances Préalables Ancrées dans l'Environnement, qui fournissent des connaissances et une supervision ancrées dans l'environnement ; et (3) les Connaissances Préalables Externes, qui transfèrent des connaissances générales à partir de jeux de données hors environnement. Dans la deuxième étape, nous développons un pipeline de RL en ligne qui s'appuie sur ces connaissances préalables pour améliorer davantage les performances de l'agent. Pour surmonter les défis inhérents au RL des agents, notamment les horizons temporels longs, les récompenses rares et l'instabilité de l'entraînement, nous introduisons trois conceptions clés : l'auto-résumé pour la gestion du contexte, la mise en forme de récompenses denses et l'optimisation de politique au niveau des tours. Des expériences approfondies sur des tâches de planification de haut niveau (EB-ALFRED) et de contrôle de bas niveau (EB-Manipulation) démontrent qu'ERA-3B surpasse à la fois les grands modèles basés sur l'invite et les précédentes méthodes d'entraînement. Plus précisément, il réalise des améliorations globales de 8,4 % sur EB-ALFRED et de 19,4 % sur EB-Manipulation par rapport à GPT-4o, et montre une forte généralisation à des tâches inédites. Globalement, ERA offre une voie pratique vers une intelligence incarnée évolutive, fournissant des insights méthodologiques pour les futurs systèmes d'IA incarnée.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.