EmbRACE-3K: Ragionamento e Azione Incorporati in Ambienti Complessi
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments
July 14, 2025
Autori: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI
Abstract
I recenti modelli avanzati di visione e linguaggio (VLMs) hanno dimostrato prestazioni solide in compiti di comprensione passiva e offline di immagini e video. Tuttavia, la loro efficacia in contesti embodied, che richiedono interazione online e comprensione attiva della scena, rimane limitata. In tali scenari, un agente percepisce l'ambiente da una prospettiva in prima persona, con ogni azione che modella dinamicamente le osservazioni successive. Anche modelli all'avanguardia come GPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro faticano nelle interazioni in ambienti aperti, mostrando evidenti limitazioni nel ragionamento spaziale e nella pianificazione a lungo termine. Per colmare questa lacuna, introduciamo EmRACE-3K, un dataset di oltre 3.000 compiti guidati dal linguaggio situati in ambienti fotorealistici e diversificati, costruiti utilizzando Unreal Engine e il framework UnrealCV-Zoo. I compiti coprono una vasta gamma di sfide embodied, tra cui navigazione, manipolazione di oggetti ed esecuzione di obiettivi multi-stadio. Ogni compito si sviluppa come una traiettoria multi-step, abbinando osservazioni visive in prima persona a istruzioni di alto livello, azioni contestualizzate e razionalizzazioni in linguaggio naturale che esprimono l'intento dell'agente a ogni passo. Utilizzando EmRACE-3K, stabiliamo un benchmark per valutare le capacità di ragionamento embodied dei VLMs lungo tre dimensioni chiave: Esplorazione, Ragionamento Spaziale-Semantico Dinamico ed Esecuzione di Obiettivi Multi-stadio. In contesti zero-shot, tutti i modelli raggiungono tassi di successo inferiori al 20%, sottolineando la sfida posta dal nostro benchmark e le attuali limitazioni dei VLMs in ambienti interattivi. Per dimostrare l'utilità di EmRACE-3K, abbiamo ulteriormente affinato Qwen2.5-VL-7B utilizzando l'apprendimento supervisionato seguito da apprendimento per rinforzo. Questo approccio produce miglioramenti sostanziali in tutte e tre le categorie di sfida, evidenziando l'efficacia del dataset nello sviluppo di capacità di ragionamento embodied.
English
Recent advanced vision-language models(VLMs) have demonstrated strong
performance on passive, offline image and video understanding tasks. However,
their effectiveness in embodied settings, which require online interaction and
active scene understanding remains limited. In such scenarios, an agent
perceives the environment from a first-person perspective, with each action
dynamically shaping subsequent observations. Even state-of-the-art models such
as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment
interactions, exhibiting clear limitations in spatial reasoning and
long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset
of over 3,000 language-guided tasks situated in diverse, photorealistic
environments constructed using Unreal Engine and the UnrealCV-Zoo framework.
The tasks encompass a wide range of embodied challenges, including navigation,
object manipulation, and multi-stage goal execution. Each task unfolds as a
multi-step trajectory, pairing first-person visual observations with high-level
instructions, grounded actions, and natural language rationales that express
the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to
evaluate the embodied reasoning capabilities of VLMs across three key
dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage
Goal Execution. In zero-shot settings, all models achieve success rates below
20%, underscoring the challenge posed by our benchmark and the current
limitations of VLMs in interactive environments. To demonstrate the utility of
EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning
followed by reinforcement learning. This approach yields substantial
improvements across all three challenge categories, highlighting the dataset's
effectiveness in enabling the development of embodied reasoning capabilities.