ChatPaper.aiChatPaper

ERA : Transformer les modèles de langage visuel en agents incarnés via l'apprentissage de connaissances préalables incarnées et l'apprentissage par renforcement en ligne

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

October 14, 2025
papers.authors: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI

papers.abstract

Les avancées récentes dans l'intelligence artificielle incarnée mettent en lumière le potentiel des modèles de vision et de langage (VLMs) en tant qu'agents capables de perception, de raisonnement et d'interaction dans des environnements complexes. Cependant, les systèmes les plus performants reposent sur des modèles à grande échelle coûteux à déployer, tandis que les VLMs plus petits manquent des connaissances et des compétences nécessaires pour réussir. Pour combler cette lacune, nous présentons l'Agent de Raisonnement Incarné (ERA), un cadre en deux étapes qui intègre l'apprentissage de connaissances préalables et l'apprentissage par renforcement en ligne (RL). La première étape, l'Apprentissage Préalable Incarné, distille des connaissances fondamentales à partir de trois types de données : (1) les Connaissances Préalables Augmentées par Trajectoires, qui enrichissent les données de trajectoire existantes avec un raisonnement structuré généré par des modèles plus puissants ; (2) les Connaissances Préalables Ancrées dans l'Environnement, qui fournissent des connaissances et une supervision ancrées dans l'environnement ; et (3) les Connaissances Préalables Externes, qui transfèrent des connaissances générales à partir de jeux de données hors environnement. Dans la deuxième étape, nous développons un pipeline de RL en ligne qui s'appuie sur ces connaissances préalables pour améliorer davantage les performances de l'agent. Pour surmonter les défis inhérents au RL des agents, notamment les horizons temporels longs, les récompenses rares et l'instabilité de l'entraînement, nous introduisons trois conceptions clés : l'auto-résumé pour la gestion du contexte, la mise en forme de récompenses denses et l'optimisation de politique au niveau des tours. Des expériences approfondies sur des tâches de planification de haut niveau (EB-ALFRED) et de contrôle de bas niveau (EB-Manipulation) démontrent qu'ERA-3B surpasse à la fois les grands modèles basés sur l'invite et les précédentes méthodes d'entraînement. Plus précisément, il réalise des améliorations globales de 8,4 % sur EB-ALFRED et de 19,4 % sur EB-Manipulation par rapport à GPT-4o, et montre une forte généralisation à des tâches inédites. Globalement, ERA offre une voie pratique vers une intelligence incarnée évolutive, fournissant des insights méthodologiques pour les futurs systèmes d'IA incarnée.
English
Recent advances in embodied AI highlight the potential of vision language models (VLMs) as agents capable of perception, reasoning, and interaction in complex environments. However, top-performing systems rely on large-scale models that are costly to deploy, while smaller VLMs lack the necessary knowledge and skills to succeed. To bridge this gap, we present Embodied Reasoning Agent (ERA), a two-stage framework that integrates prior knowledge learning and online reinforcement learning (RL). The first stage, Embodied Prior Learning, distills foundational knowledge from three types of data: (1) Trajectory-Augmented Priors, which enrich existing trajectory data with structured reasoning generated by stronger models; (2) Environment-Anchored Priors, which provide in-environment knowledge and grounding supervision; and (3) External Knowledge Priors, which transfer general knowledge from out-of-environment datasets. In the second stage, we develop an online RL pipeline that builds on these priors to further enhance agent performance. To overcome the inherent challenges in agent RL, including long horizons, sparse rewards, and training instability, we introduce three key designs: self-summarization for context management, dense reward shaping, and turn-level policy optimization. Extensive experiments on both high-level planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate that ERA-3B surpasses both prompting-based large models and previous training-based baselines. Specifically, it achieves overall improvements of 8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits strong generalization to unseen tasks. Overall, ERA offers a practical path toward scalable embodied intelligence, providing methodological insights for future embodied AI systems.
PDF252October 15, 2025