OmniEVA: Planejador Versátil Incorporado via Raciocínio Adaptativo à Tarefa com Base em 3D e Consciência de Incorporação

Resumo

Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) abriram novas oportunidades para a inteligência incorporada, permitindo compreensão, raciocínio e interação multimodal, bem como tomada de decisão espacial contínua. No entanto, os sistemas incorporados baseados em MLLMs atuais enfrentam duas limitações críticas. Primeiro, a Lacuna de Adaptabilidade Geométrica: modelos treinados exclusivamente em entradas 2D ou com injeção de geometria 3D codificada sofrem com informações espaciais insuficientes ou generalização 2D restrita, levando a uma má adaptabilidade em tarefas com demandas espaciais diversas. Segundo, a Lacuna de Restrição de Incorporação: trabalhos anteriores frequentemente negligenciam as restrições físicas e capacidades de robôs reais, resultando em planos de tarefas teoricamente válidos, mas praticamente inviáveis. Para abordar essas lacunas, introduzimos o OmniEVA — um planejador versátil incorporado que permite raciocínio avançado e planejamento de tarefas por meio de duas inovações fundamentais: (1) um Mecanismo de Aterramento 3D Adaptativo à Tarefa, que introduz um roteador com portas para realizar regulação seletiva explícita da fusão 3D com base em requisitos contextuais, permitindo aterramento 3D consciente do contexto para diversas tarefas incorporadas. (2) um Framework de Raciocínio Consciente da Incorporação que incorpora conjuntamente objetivos de tarefa e restrições de incorporação no ciclo de raciocínio, resultando em decisões de planejamento que são tanto direcionadas a objetivos quanto executáveis. Resultados experimentais extensivos demonstram que o OmniEVA não apenas alcança desempenho de raciocínio incorporado geral de última geração, mas também exibe uma forte capacidade em uma ampla gama de cenários subsequentes. Avaliações de um conjunto de benchmarks incorporados propostos, incluindo tarefas primitivas e compostas, confirmam suas capacidades de planejamento robustas e versáteis. Página do projeto: https://omnieva.github.io

English

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible.To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io

OmniEVA: Planejador Versátil Incorporado via Raciocínio Adaptativo à Tarefa com Base em 3D e Consciência de Incorporação

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Resumo

Support