ChatPaper.aiChatPaper

EmbRACE-3K: Razonamiento y Acción Corporizada en Entornos Complejos

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

July 14, 2025
Autores: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI

Resumen

Los modelos avanzados recientes de visión y lenguaje (VLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas pasivas y fuera de línea de comprensión de imágenes y videos. Sin embargo, su efectividad en entornos corporizados, que requieren interacción en línea y comprensión activa de escenas, sigue siendo limitada. En tales escenarios, un agente percibe el entorno desde una perspectiva en primera persona, donde cada acción moldea dinámicamente las observaciones posteriores. Incluso modelos de última generación como GPT-4o, Claude 3.5 Sonnet y Gemini 2.5 Pro enfrentan dificultades en interacciones en entornos abiertos, mostrando limitaciones claras en razonamiento espacial y planificación a largo plazo. Para abordar esta brecha, presentamos EmRACE-3K, un conjunto de datos de más de 3,000 tareas guiadas por lenguaje situadas en diversos entornos fotorrealistas construidos utilizando Unreal Engine y el marco UnrealCV-Zoo. Las tareas abarcan una amplia gama de desafíos corporizados, incluyendo navegación, manipulación de objetos y ejecución de objetivos en múltiples etapas. Cada tarea se desarrolla como una trayectoria de múltiples pasos, emparejando observaciones visuales en primera persona con instrucciones de alto nivel, acciones fundamentadas y justificaciones en lenguaje natural que expresan la intención del agente en cada paso. Utilizando EmRACE-3K, establecemos un punto de referencia para evaluar las capacidades de razonamiento corporizado de los VLMs en tres dimensiones clave: Exploración, Razonamiento Espacial-Semántico Dinámico y Ejecución de Objetivos en Múltiples Etapas. En configuraciones de cero disparos, todos los modelos logran tasas de éxito inferiores al 20%, subrayando el desafío que plantea nuestro punto de referencia y las limitaciones actuales de los VLMs en entornos interactivos. Para demostrar la utilidad de EmRACE-3K, ajustamos Qwen2.5-VL-7B mediante aprendizaje supervisado seguido de aprendizaje por refuerzo. Este enfoque produce mejoras sustanciales en las tres categorías de desafíos, destacando la efectividad del conjunto de datos para permitir el desarrollo de capacidades de razonamiento corporizado.
English
Recent advanced vision-language models(VLMs) have demonstrated strong performance on passive, offline image and video understanding tasks. However, their effectiveness in embodied settings, which require online interaction and active scene understanding remains limited. In such scenarios, an agent perceives the environment from a first-person perspective, with each action dynamically shaping subsequent observations. Even state-of-the-art models such as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment interactions, exhibiting clear limitations in spatial reasoning and long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset of over 3,000 language-guided tasks situated in diverse, photorealistic environments constructed using Unreal Engine and the UnrealCV-Zoo framework. The tasks encompass a wide range of embodied challenges, including navigation, object manipulation, and multi-stage goal execution. Each task unfolds as a multi-step trajectory, pairing first-person visual observations with high-level instructions, grounded actions, and natural language rationales that express the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to evaluate the embodied reasoning capabilities of VLMs across three key dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage Goal Execution. In zero-shot settings, all models achieve success rates below 20%, underscoring the challenge posed by our benchmark and the current limitations of VLMs in interactive environments. To demonstrate the utility of EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning followed by reinforcement learning. This approach yields substantial improvements across all three challenge categories, highlighting the dataset's effectiveness in enabling the development of embodied reasoning capabilities.
PDF275July 15, 2025