ChatPaper.aiChatPaper

EmbRACE-3K: Воплощённое рассуждение и действие в сложных средах

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

July 14, 2025
Авторы: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI

Аннотация

Современные модели обработки зрения и языка (VLMs) демонстрируют высокую производительность в задачах пассивного, оффлайн анализа изображений и видео. Однако их эффективность в условиях воплощённого взаимодействия, требующего онлайн-взаимодействия и активного понимания сцены, остаётся ограниченной. В таких сценариях агент воспринимает окружение с точки зрения первого лица, где каждое действие динамически формирует последующие наблюдения. Даже передовые модели, такие как GPT-4o, Claude 3.5 Sonnet и Gemini 2.5 Pro, испытывают трудности в открытых взаимодействиях с окружением, демонстрируя явные ограничения в пространственном мышлении и долгосрочном планировании. Для устранения этого пробела мы представляем EmRACE-3K — набор данных, содержащий более 3000 задач с языковым управлением, размещённых в разнообразных фотореалистичных средах, созданных с использованием Unreal Engine и фреймворка UnrealCV-Zoo. Задачи охватывают широкий спектр воплощённых вызовов, включая навигацию, манипуляцию объектами и выполнение многоэтапных целей. Каждая задача разворачивается как многошаговая траектория, сочетающая визуальные наблюдения от первого лица с высокоуровневыми инструкциями, обоснованными действиями и естественными языковыми объяснениями, выражающими намерения агента на каждом шаге. Используя EmRACE-3K, мы устанавливаем эталон для оценки способностей VLMs к воплощённому мышлению по трём ключевым направлениям: Исследование, Динамическое пространственно-семантическое мышление и Выполнение многоэтапных целей. В условиях zero-shot все модели демонстрируют успешность ниже 20%, что подчёркивает сложность нашего эталона и текущие ограничения VLMs в интерактивных средах. Чтобы продемонстрировать полезность EmRACE-3K, мы дополнительно дообучаем модель Qwen2.5-VL-7B с использованием обучения с учителем, за которым следует обучение с подкреплением. Этот подход приводит к значительным улучшениям во всех трёх категориях задач, подчёркивая эффективность набора данных в развитии способностей к воплощённому мышлению.
English
Recent advanced vision-language models(VLMs) have demonstrated strong performance on passive, offline image and video understanding tasks. However, their effectiveness in embodied settings, which require online interaction and active scene understanding remains limited. In such scenarios, an agent perceives the environment from a first-person perspective, with each action dynamically shaping subsequent observations. Even state-of-the-art models such as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment interactions, exhibiting clear limitations in spatial reasoning and long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset of over 3,000 language-guided tasks situated in diverse, photorealistic environments constructed using Unreal Engine and the UnrealCV-Zoo framework. The tasks encompass a wide range of embodied challenges, including navigation, object manipulation, and multi-stage goal execution. Each task unfolds as a multi-step trajectory, pairing first-person visual observations with high-level instructions, grounded actions, and natural language rationales that express the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to evaluate the embodied reasoning capabilities of VLMs across three key dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage Goal Execution. In zero-shot settings, all models achieve success rates below 20%, underscoring the challenge posed by our benchmark and the current limitations of VLMs in interactive environments. To demonstrate the utility of EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning followed by reinforcement learning. This approach yields substantial improvements across all three challenge categories, highlighting the dataset's effectiveness in enabling the development of embodied reasoning capabilities.
PDF275July 15, 2025