ERA: Transformando VLMs em Agentes Corporificados por meio de Aprendizado de Prior Corporificado e Aprendizado por Reforço Online
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
Autores: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
Resumo
Avanços recentes em IA incorporada destacam o potencial dos modelos de linguagem visual (VLMs) como agentes capazes de percepção, raciocínio e interação em ambientes complexos. No entanto, os sistemas de melhor desempenho dependem de modelos em larga escala que são caros para implantar, enquanto VLMs menores carecem do conhecimento e das habilidades necessárias para ter sucesso. Para preencher essa lacuna, apresentamos o Agente de Raciocínio Incorporado (ERA), uma estrutura de duas etapas que integra o aprendizado de conhecimento prévio e o aprendizado por reforço online (RL). A primeira etapa, Aprendizado Prévio Incorporado, destila conhecimento fundamental de três tipos de dados: (1) Prioridades Aumentadas por Trajetória, que enriquecem dados de trajetória existentes com raciocínio estruturado gerado por modelos mais fortes; (2) Prioridades Ancoradas no Ambiente, que fornecem conhecimento no ambiente e supervisão de aterramento; e (3) Prioridades de Conhecimento Externo, que transferem conhecimento geral de conjuntos de dados fora do ambiente. Na segunda etapa, desenvolvemos um pipeline de RL online que se baseia nessas prioridades para aprimorar ainda mais o desempenho do agente. Para superar os desafios inerentes ao RL de agentes, incluindo horizontes longos, recompensas esparsas e instabilidade no treinamento, introduzimos três designs principais: auto-resumo para gerenciamento de contexto, modelagem de recompensas densas e otimização de política em nível de turno. Experimentos extensos em tarefas de planejamento de alto nível (EB-ALFRED) e controle de baixo nível (EB-Manipulação) demonstram que o ERA-3B supera tanto modelos grandes baseados em prompt quanto baselines anteriores baseados em treinamento. Especificamente, ele alcança melhorias gerais de 8,4% no EB-ALFRED e 19,4% no EB-Manipulação em relação ao GPT-4o, e exibe forte generalização para tarefas não vistas. No geral, o ERA oferece um caminho prático para a inteligência incorporada escalável, fornecendo insights metodológicos para futuros sistemas de IA incorporada.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.