ChatPaper.aiChatPaper

EmbRACE-3K: Belichaamde Redenering en Actie in Complexe Omgevingen

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

July 14, 2025
Auteurs: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI

Samenvatting

Recente geavanceerde visie-taalmodellen (VLMs) hebben sterke prestaties laten zien bij passieve, offline beeld- en videobegriptaken. Hun effectiviteit in belichaamde omgevingen, die online interactie en actieve scènebegrip vereisen, blijft echter beperkt. In dergelijke scenario's neemt een agent de omgeving waar vanuit een first-person perspectief, waarbij elke actie de daaropvolgende waarnemingen dynamisch vormgeeft. Zelfs state-of-the-art modellen zoals GPT-4o, Claude 3.5 Sonnet en Gemini 2.5 Pro worstelen in open-omgeving interacties, waarbij duidelijke beperkingen in ruimtelijk redeneren en langetermijnplanning naar voren komen. Om deze kloof te overbruggen, introduceren we EmRACE-3K, een dataset van meer dan 3.000 taalgestuurde taken gesitueerd in diverse, fotorealistische omgevingen geconstrueerd met Unreal Engine en het UnrealCV-Zoo framework. De taken omvatten een breed scala aan belichaamde uitdagingen, waaronder navigatie, objectmanipulatie en uitvoering van meerfasige doelen. Elke taak ontvouwt zich als een meerstaps traject, waarbij first-person visuele waarnemingen worden gekoppeld aan hoogwaardige instructies, gegronde acties en natuurlijke taalredeneringen die de intentie van de agent bij elke stap uitdrukken. Met EmRACE-3K stellen we een benchmark op om de belichaamde redeneervaardigheden van VLMs te evalueren op drie belangrijke dimensies: Verkenning, Dynamisch Ruimtelijk-Semantisch Redeneren en Meerfasige Doeluitvoering. In zero-shot settings behalen alle modellen slagingspercentages onder de 20%, wat de uitdaging van onze benchmark en de huidige beperkingen van VLMs in interactieve omgevingen onderstreept. Om het nut van EmRACE-3K aan te tonen, fine-tunen we verder Qwen2.5-VL-7B met behulp van supervised learning gevolgd door reinforcement learning. Deze aanpak leidt aanzienlijke verbeteringen op in alle drie de uitdagingscategorieën, wat de effectiviteit van de dataset benadrukt bij het mogelijk maken van de ontwikkeling van belichaamde redeneervaardigheden.
English
Recent advanced vision-language models(VLMs) have demonstrated strong performance on passive, offline image and video understanding tasks. However, their effectiveness in embodied settings, which require online interaction and active scene understanding remains limited. In such scenarios, an agent perceives the environment from a first-person perspective, with each action dynamically shaping subsequent observations. Even state-of-the-art models such as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment interactions, exhibiting clear limitations in spatial reasoning and long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset of over 3,000 language-guided tasks situated in diverse, photorealistic environments constructed using Unreal Engine and the UnrealCV-Zoo framework. The tasks encompass a wide range of embodied challenges, including navigation, object manipulation, and multi-stage goal execution. Each task unfolds as a multi-step trajectory, pairing first-person visual observations with high-level instructions, grounded actions, and natural language rationales that express the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to evaluate the embodied reasoning capabilities of VLMs across three key dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage Goal Execution. In zero-shot settings, all models achieve success rates below 20%, underscoring the challenge posed by our benchmark and the current limitations of VLMs in interactive environments. To demonstrate the utility of EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning followed by reinforcement learning. This approach yields substantial improvements across all three challenge categories, highlighting the dataset's effectiveness in enabling the development of embodied reasoning capabilities.
PDF365July 15, 2025