ChatPaper.aiChatPaper

OmniEVA: Planificador Versátil Encarnado mediante Razonamiento Adaptativo a Tareas, Basado en 3D y Consciente de la Encarnación

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

September 11, 2025
Autores: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han abierto nuevas oportunidades para la inteligencia encarnada, permitiendo la comprensión multimodal, el razonamiento y la interacción, así como la toma de decisiones espaciales continua. Sin embargo, los sistemas encarnados basados en MLLM actuales enfrentan dos limitaciones críticas. Primero, la Brecha de Adaptabilidad Geométrica: los modelos entrenados únicamente con entradas 2D o con inyección de geometría 3D codificada de manera rígida sufren de información espacial insuficiente o generalización 2D restringida, lo que lleva a una mala adaptabilidad en tareas con diversas demandas espaciales. Segundo, la Brecha de Restricción de Encarnación: trabajos previos a menudo descuidan las limitaciones físicas y capacidades de los robots reales, resultando en planes de tareas que son teóricamente válidos pero prácticamente inviables. Para abordar estas brechas, presentamos OmniEVA, un planificador versátil encarnado que permite un razonamiento avanzado y planificación de tareas a través de dos innovaciones clave: (1) un Mecanismo de Anclaje 3D Adaptativo a la Tarea, que introduce un enrutador con compuerta para realizar una regulación selectiva explícita de la fusión 3D basada en los requisitos contextuales, permitiendo un anclaje 3D consciente del contexto para diversas tareas encarnadas. (2) un Marco de Razonamiento Consciente de la Encarnación que incorpora conjuntamente los objetivos de la tarea y las restricciones de encarnación en el ciclo de razonamiento, resultando en decisiones de planificación que son tanto dirigidas a objetivos como ejecutables. Los resultados experimentales extensivos demuestran que OmniEVA no solo alcanza un rendimiento de razonamiento encarnado general de vanguardia, sino que también exhibe una fuerte capacidad en una amplia gama de escenarios posteriores. Las evaluaciones de un conjunto de puntos de referencia propuestos para tareas encarnadas, incluyendo tanto tareas primitivas como compuestas, confirman sus capacidades de planificación robustas y versátiles. Página del proyecto: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible.To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io
PDF32September 12, 2025