ChatPaper.aiChatPaper

EmbRACE-3K : Raisonnement et Action Incarnés dans des Environnements Complexes

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

July 14, 2025
papers.authors: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI

papers.abstract

Les modèles vision-langage (VLMs) récents ont démontré des performances impressionnantes dans des tâches passives et hors ligne de compréhension d'images et de vidéos. Cependant, leur efficacité dans des contextes incarnés, qui nécessitent une interaction en temps réel et une compréhension active de la scène, reste limitée. Dans de tels scénarios, un agent perçoit l'environnement selon une perspective à la première personne, chaque action modifiant dynamiquement les observations suivantes. Même les modèles de pointe tels que GPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro rencontrent des difficultés dans les interactions en environnement ouvert, révélant des limites évidentes en matière de raisonnement spatial et de planification à long terme. Pour combler cette lacune, nous présentons EmRACE-3K, un ensemble de données comprenant plus de 3 000 tâches guidées par le langage, situées dans des environnements divers et photoréalistes construits à l'aide d'Unreal Engine et du framework UnrealCV-Zoo. Ces tâches englobent un large éventail de défis incarnés, incluant la navigation, la manipulation d'objets et l'exécution d'objectifs en plusieurs étapes. Chaque tâche se déroule comme une trajectoire en plusieurs étapes, associant des observations visuelles à la première personne à des instructions de haut niveau, des actions concrètes et des justifications en langage naturel exprimant l'intention de l'agent à chaque étape. En utilisant EmRACE-3K, nous établissons un benchmark pour évaluer les capacités de raisonnement incarné des VLMs selon trois dimensions clés : l'exploration, le raisonnement spatial-sémantique dynamique et l'exécution d'objectifs en plusieurs étapes. En configuration zero-shot, tous les modèles obtiennent des taux de réussite inférieurs à 20 %, soulignant la difficulté de notre benchmark et les limites actuelles des VLMs dans des environnements interactifs. Pour démontrer l'utilité d'EmRACE-3K, nous affinons ensuite Qwen2.5-VL-7B en utilisant un apprentissage supervisé suivi d'un apprentissage par renforcement. Cette approche entraîne des améliorations substantielles dans les trois catégories de défis, mettant en évidence l'efficacité du dataset pour le développement de capacités de raisonnement incarné.
English
Recent advanced vision-language models(VLMs) have demonstrated strong performance on passive, offline image and video understanding tasks. However, their effectiveness in embodied settings, which require online interaction and active scene understanding remains limited. In such scenarios, an agent perceives the environment from a first-person perspective, with each action dynamically shaping subsequent observations. Even state-of-the-art models such as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment interactions, exhibiting clear limitations in spatial reasoning and long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset of over 3,000 language-guided tasks situated in diverse, photorealistic environments constructed using Unreal Engine and the UnrealCV-Zoo framework. The tasks encompass a wide range of embodied challenges, including navigation, object manipulation, and multi-stage goal execution. Each task unfolds as a multi-step trajectory, pairing first-person visual observations with high-level instructions, grounded actions, and natural language rationales that express the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to evaluate the embodied reasoning capabilities of VLMs across three key dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage Goal Execution. In zero-shot settings, all models achieve success rates below 20%, underscoring the challenge posed by our benchmark and the current limitations of VLMs in interactive environments. To demonstrate the utility of EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning followed by reinforcement learning. This approach yields substantial improvements across all three challenge categories, highlighting the dataset's effectiveness in enabling the development of embodied reasoning capabilities.
PDF275July 15, 2025