OmniEVA : Planificateur polyvalent incarné via un raisonnement adaptatif 3D ancré et conscient de l'incarnation
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
papers.authors: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
papers.abstract
Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont ouvert de nouvelles opportunités pour l'intelligence incarnée, permettant une compréhension, un raisonnement et une interaction multimodaux, ainsi qu'une prise de décision spatiale continue. Néanmoins, les systèmes incarnés actuels basés sur les MLLMs sont confrontés à deux limitations critiques. Premièrement, le Fossé d'Adaptabilité Géométrique : les modèles entraînés uniquement sur des entrées 2D ou avec une injection de géométrie 3D prédéfinie souffrent soit d'une information spatiale insuffisante, soit d'une généralisation 2D restreinte, conduisant à une mauvaise adaptabilité aux tâches avec des exigences spatiales variées. Deuxièmement, le Fossé de Contrainte d'Incarnation : les travaux antérieurs négligent souvent les contraintes et capacités physiques des robots réels, aboutissant à des plans de tâches théoriquement valides mais pratiquement irréalisables. Pour combler ces lacunes, nous présentons OmniEVA — un planificateur polyvalent incarné qui permet un raisonnement et une planification de tâches avancés grâce à deux innovations majeures : (1) un Mécanisme d'Ancrage 3D Adaptatif aux Tâches, qui introduit un routeur à portes pour effectuer une régulation sélective explicite de la fusion 3D en fonction des exigences contextuelles, permettant un ancrage 3D conscient du contexte pour diverses tâches incarnées. (2) un Cadre de Raisonnement Conscient de l'Incarnation qui intègre conjointement les objectifs de tâche et les contraintes d'incarnation dans la boucle de raisonnement, aboutissant à des décisions de planification à la fois orientées vers un but et exécutables. Les résultats expérimentaux approfondis démontrent qu'OmniEVA non seulement atteint des performances de pointe en raisonnement incarné général, mais montre également une forte capacité dans un large éventail de scénarios en aval. Les évaluations d'une série de benchmarks incarnés proposés, incluant à la fois des tâches primitives et composites, confirment ses capacités de planification robustes et polyvalentes. Page du projet : https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io