EmbRACE-3K: Raciocínio e Ação Corporificada em Ambientes Complexos
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments
July 14, 2025
Autores: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
cs.AI
Resumo
Modelos avançados recentes de visão e linguagem (VLMs) demonstraram um forte desempenho em tarefas passivas e offline de compreensão de imagens e vídeos. No entanto, sua eficácia em cenários incorporados, que exigem interação online e compreensão ativa da cena, permanece limitada. Nesses cenários, um agente percebe o ambiente a partir de uma perspectiva em primeira pessoa, com cada ação moldando dinamicamente as observações subsequentes. Mesmo modelos de última geração, como GPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, lutam em interações em ambientes abertos, exibindo limitações claras no raciocínio espacial e no planejamento de longo prazo. Para abordar essa lacuna, introduzimos o EmRACE-3K, um conjunto de dados com mais de 3.000 tarefas guiadas por linguagem, situadas em diversos ambientes fotorrealísticos construídos usando Unreal Engine e o framework UnrealCV-Zoo. As tarefas abrangem uma ampla gama de desafios incorporados, incluindo navegação, manipulação de objetos e execução de objetivos em múltiplas etapas. Cada tarefa se desdobra como uma trajetória de múltiplos passos, emparelhando observações visuais em primeira pessoa com instruções de alto nível, ações fundamentadas e racionalizações em linguagem natural que expressam a intenção do agente a cada passo. Usando o EmRACE-3K, estabelecemos um benchmark para avaliar as capacidades de raciocínio incorporado dos VLMs em três dimensões principais: Exploração, Raciocínio Dinâmico Espaço-Semântico e Execução de Objetivos em Múltiplas Etapas. Em configurações zero-shot, todos os modelos alcançam taxas de sucesso abaixo de 20%, destacando o desafio apresentado pelo nosso benchmark e as limitações atuais dos VLMs em ambientes interativos. Para demonstrar a utilidade do EmRACE-3K, ajustamos ainda mais o Qwen2.5-VL-7B usando aprendizado supervisionado seguido de aprendizado por reforço. Essa abordagem resulta em melhorias substanciais em todas as três categorias de desafios, destacando a eficácia do conjunto de dados no desenvolvimento de capacidades de raciocínio incorporado.
English
Recent advanced vision-language models(VLMs) have demonstrated strong
performance on passive, offline image and video understanding tasks. However,
their effectiveness in embodied settings, which require online interaction and
active scene understanding remains limited. In such scenarios, an agent
perceives the environment from a first-person perspective, with each action
dynamically shaping subsequent observations. Even state-of-the-art models such
as GPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro struggle in open-environment
interactions, exhibiting clear limitations in spatial reasoning and
long-horizon planning. To address this gap, we introduce EmRACE-3K, a dataset
of over 3,000 language-guided tasks situated in diverse, photorealistic
environments constructed using Unreal Engine and the UnrealCV-Zoo framework.
The tasks encompass a wide range of embodied challenges, including navigation,
object manipulation, and multi-stage goal execution. Each task unfolds as a
multi-step trajectory, pairing first-person visual observations with high-level
instructions, grounded actions, and natural language rationales that express
the agent's intent at every step. Using EmRACE-3K, we establish a benchmark to
evaluate the embodied reasoning capabilities of VLMs across three key
dimensions: Exploration, Dynamic Spatial-Semantic Reasoning, and Multi-stage
Goal Execution. In zero-shot settings, all models achieve success rates below
20%, underscoring the challenge posed by our benchmark and the current
limitations of VLMs in interactive environments. To demonstrate the utility of
EmRACE-3K, we further fine-tune Qwen2.5-VL-7B using supervised learning
followed by reinforcement learning. This approach yields substantial
improvements across all three challenge categories, highlighting the dataset's
effectiveness in enabling the development of embodied reasoning capabilities.