OmniEVA: Planejador Versátil Incorporado via Raciocínio Adaptativo à Tarefa com Base em 3D e Consciência de Incorporação
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
Autores: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
Resumo
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) abriram novas oportunidades para a inteligência incorporada, permitindo compreensão, raciocínio e interação multimodal, bem como tomada de decisão espacial contínua. No entanto, os sistemas incorporados baseados em MLLMs atuais enfrentam duas limitações críticas. Primeiro, a Lacuna de Adaptabilidade Geométrica: modelos treinados exclusivamente em entradas 2D ou com injeção de geometria 3D codificada sofrem com informações espaciais insuficientes ou generalização 2D restrita, levando a uma má adaptabilidade em tarefas com demandas espaciais diversas. Segundo, a Lacuna de Restrição de Incorporação: trabalhos anteriores frequentemente negligenciam as restrições físicas e capacidades de robôs reais, resultando em planos de tarefas teoricamente válidos, mas praticamente inviáveis. Para abordar essas lacunas, introduzimos o OmniEVA — um planejador versátil incorporado que permite raciocínio avançado e planejamento de tarefas por meio de duas inovações fundamentais: (1) um Mecanismo de Aterramento 3D Adaptativo à Tarefa, que introduz um roteador com portas para realizar regulação seletiva explícita da fusão 3D com base em requisitos contextuais, permitindo aterramento 3D consciente do contexto para diversas tarefas incorporadas. (2) um Framework de Raciocínio Consciente da Incorporação que incorpora conjuntamente objetivos de tarefa e restrições de incorporação no ciclo de raciocínio, resultando em decisões de planejamento que são tanto direcionadas a objetivos quanto executáveis. Resultados experimentais extensivos demonstram que o OmniEVA não apenas alcança desempenho de raciocínio incorporado geral de última geração, mas também exibe uma forte capacidade em uma ampla gama de cenários subsequentes. Avaliações de um conjunto de benchmarks incorporados propostos, incluindo tarefas primitivas e compostas, confirmam suas capacidades de planejamento robustas e versáteis. Página do projeto: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io