ERA: Transformación de Modelos de Lenguaje Visual en Agentes Embebidos mediante Aprendizaje de Conocimientos Previos Embebidos y Aprendizaje por Refuerzo en Línea
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
Autores: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
Resumen
Los recientes avances en IA encarnada destacan el potencial de los modelos de visión y lenguaje (VLMs) como agentes capaces de percepción, razonamiento e interacción en entornos complejos. Sin embargo, los sistemas de mayor rendimiento dependen de modelos a gran escala que son costosos de implementar, mientras que los VLMs más pequeños carecen del conocimiento y las habilidades necesarias para tener éxito. Para cerrar esta brecha, presentamos el Agente de Razonamiento Encarnado (ERA), un marco de dos etapas que integra el aprendizaje de conocimiento previo y el aprendizaje por refuerzo (RL) en línea. La primera etapa, Aprendizaje de Conocimiento Previo Encarnado, destila conocimiento fundamental a partir de tres tipos de datos: (1) Conocimientos Previos Aumentados con Trayectorias, que enriquecen los datos de trayectoria existentes con razonamiento estructurado generado por modelos más potentes; (2) Conocimientos Previos Anclados al Entorno, que proporcionan conocimiento dentro del entorno y supervisión de anclaje; y (3) Conocimientos Previos de Conocimiento Externo, que transfieren conocimiento general de conjuntos de datos fuera del entorno. En la segunda etapa, desarrollamos una canalización de RL en línea que se basa en estos conocimientos previos para mejorar aún más el rendimiento del agente. Para superar los desafíos inherentes al RL de agentes, incluyendo horizontes largos, recompensas dispersas e inestabilidad en el entrenamiento, introducimos tres diseños clave: auto-resumen para la gestión del contexto, modelado de recompensas densas y optimización de políticas a nivel de turno. Experimentos extensos en tareas de planificación de alto nivel (EB-ALFRED) y control de bajo nivel (EB-Manipulación) demuestran que ERA-3B supera tanto a los modelos grandes basados en indicaciones como a los baselines anteriores basados en entrenamiento. Específicamente, logra mejoras generales del 8.4\% en EB-ALFRED y del 19.4\% en EB-Manipulación sobre GPT-4o, y exhibe una fuerte generalización a tareas no vistas. En general, ERA ofrece un camino práctico hacia la inteligencia encarnada escalable, proporcionando insights metodológicos para futuros sistemas de IA encarnada.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.