ERA: Trasformare i Modelli Linguistici Visivi in Agenti Embodied attraverso l'Apprendimento di Prior Embodied e il Rinforzo Online
ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
October 14, 2025
Autori: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang
cs.AI
Abstract
I recenti progressi nell'IA incarnata evidenziano il potenziale dei modelli di linguaggio visivo (VLMs) come agenti capaci di percezione, ragionamento e interazione in ambienti complessi. Tuttavia, i sistemi più performanti si basano su modelli su larga scala che sono costosi da implementare, mentre i VLMs più piccoli mancano delle conoscenze e delle competenze necessarie per avere successo. Per colmare questa lacuna, presentiamo l'Embodied Reasoning Agent (ERA), un framework a due stadi che integra l'apprendimento di conoscenze pregresse e l'apprendimento per rinforzo online (RL). Il primo stadio, l'Embodied Prior Learning, estrae conoscenze fondamentali da tre tipi di dati: (1) Priori Aumentati da Traiettorie, che arricchiscono i dati di traiettoria esistenti con ragionamenti strutturati generati da modelli più potenti; (2) Priori Ancorati all'Ambiente, che forniscono conoscenze contestuali e supervisione di grounding; e (3) Priori di Conoscenza Esterna, che trasferiscono conoscenze generali da dataset esterni all'ambiente. Nel secondo stadio, sviluppiamo una pipeline di RL online che si basa su questi priori per migliorare ulteriormente le prestazioni dell'agente. Per superare le sfide intrinseche del RL per agenti, tra cui orizzonti temporali lunghi, ricompense sparse e instabilità durante l'addestramento, introduciamo tre design chiave: auto-riassunto per la gestione del contesto, modellazione di ricompense dense e ottimizzazione della politica a livello di turno. Esperimenti estesi su compiti di pianificazione di alto livello (EB-ALFRED) e controllo di basso livello (EB-Manipulation) dimostrano che ERA-3B supera sia i grandi modelli basati su prompt che i precedenti baseline basati su addestramento. In particolare, ottiene miglioramenti complessivi dell'8,4\% su EB-ALFRED e del 19,4\% su EB-Manipulation rispetto a GPT-4o, e mostra una forte generalizzazione su compiti non visti. Nel complesso, ERA offre un percorso pratico verso un'intelligenza incarnata scalabile, fornendo intuizioni metodologiche per i futuri sistemi di IA incarnata.
English
Recent advances in embodied AI highlight the potential of vision language
models (VLMs) as agents capable of perception, reasoning, and interaction in
complex environments. However, top-performing systems rely on large-scale
models that are costly to deploy, while smaller VLMs lack the necessary
knowledge and skills to succeed. To bridge this gap, we present
Embodied Reasoning Agent (ERA), a two-stage framework that integrates
prior knowledge learning and online reinforcement learning (RL). The first
stage, Embodied Prior Learning, distills foundational knowledge from
three types of data: (1) Trajectory-Augmented Priors, which enrich existing
trajectory data with structured reasoning generated by stronger models; (2)
Environment-Anchored Priors, which provide in-environment knowledge and
grounding supervision; and (3) External Knowledge Priors, which transfer
general knowledge from out-of-environment datasets. In the second stage, we
develop an online RL pipeline that builds on these priors to further enhance
agent performance. To overcome the inherent challenges in agent RL, including
long horizons, sparse rewards, and training instability, we introduce three key
designs: self-summarization for context management, dense reward shaping, and
turn-level policy optimization. Extensive experiments on both high-level
planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate
that ERA-3B surpasses both prompting-based large models and previous
training-based baselines. Specifically, it achieves overall improvements of
8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits
strong generalization to unseen tasks. Overall, ERA offers a practical path
toward scalable embodied intelligence, providing methodological insights for
future embodied AI systems.