EmbRACE-3K: Verkörpertes Denken und Handeln in komplexen Umgebungen
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments
July 14, 2025
papers.authors: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI
papers.abstract
Aktuelle fortschrittliche Vision-Sprach-Modelle (VLMs) haben starke Leistungen bei passiven, offline Bild- und Video-Verständnisaufgaben gezeigt. Ihre Effektivität in verkörperten Umgebungen, die Online-Interaktion und aktives Szenenverständnis erfordern, bleibt jedoch begrenzt. In solchen Szenarien nimmt ein Agent die Umgebung aus einer Ego-Perspektive wahr, wobei jede Aktion die nachfolgenden Beobachtungen dynamisch beeinflusst. Selbst state-of-the-art Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro haben Schwierigkeiten in offenen Umgebungsinteraktionen und zeigen deutliche Einschränkungen in der räumlichen Argumentation und der langfristigen Planung. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, einen Datensatz mit über 3.000 sprachgesteuerten Aufgaben, die in vielfältigen, fotorealistischen Umgebungen angesiedelt sind, die mit Unreal Engine und dem UnrealCV-Zoo-Framework erstellt wurden. Die Aufgaben umfassen eine breite Palette von verkörperten Herausforderungen, einschließlich Navigation, Objektmanipulation und mehrstufiger Zielausführung. Jede Aufgabe entfaltet sich als mehrstufige Trajektorie, die Ego-Perspektiv-Visualbeobachtungen mit hochrangigen Anweisungen, fundierten Aktionen und natürlichen Sprachbegründungen kombiniert, die die Absicht des Agents in jedem Schritt ausdrücken. Mit EmRACE-3K etablieren wir einen Benchmark, um die verkörperten Argumentationsfähigkeiten von VLMs in drei Schlüsseldimensionen zu bewerten: Exploration, dynamische räumlich-semantische Argumentation und mehrstufige Zielausführung. In Zero-Shot-Szenarien erreichen alle Modelle Erfolgsquoten von unter 20 %, was die Herausforderung unseres Benchmarks und die aktuellen Grenzen von VLMs in interaktiven Umgebungen unterstreicht. Um den Nutzen von EmRACE-3K zu demonstrieren, feintunen wir Qwen2.5-VL-7B weiter mit überwachtem Lernen gefolgt von verstärkendem Lernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Herausforderungskategorien und unterstreicht die Effektivität des Datensatzes bei der Entwicklung verkörperter Argumentationsfähigkeiten.
English
Recent advanced vision-language models(VLMs) have demonstrated strong
performance on passive, offline image and video understanding tasks. However,
their effectiveness in embodied settings, which require online interaction and
active scene understanding remains limited. In such scenarios, an agent
perceives the environment from a first-person perspective, with each action
dynamically shaping subsequent observations. Even state-of-the-art models such
as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment
interactions, exhibiting clear limitations in spatial reasoning and
long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset
of over 3,000 language-guided tasks situated in diverse, photorealistic
environments constructed using Unreal Engine and the UnrealCV-Zoo framework.
The tasks encompass a wide range of embodied challenges, including navigation,
object manipulation, and multi-stage goal execution. Each task unfolds as a
multi-step trajectory, pairing first-person visual observations with high-level
instructions, grounded actions, and natural language rationales that express
the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to
evaluate the embodied reasoning capabilities of VLMs across three key
dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage
Goal Execution. In zero-shot settings, all models achieve success rates below
20%, underscoring the challenge posed by our benchmark and the current
limitations of VLMs in interactive environments. To demonstrate the utility of
EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning
followed by reinforcement learning. This approach yields substantial
improvements across all three challenge categories, highlighting the dataset's
effectiveness in enabling the development of embodied reasoning capabilities.