OmniEVA: Vielseitiger Embodied Planner durch aufgabenadaptives, 3D-basiertes und körperbewusstes Reasoning
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
papers.authors: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben neue Möglichkeiten für verkörperte Intelligenz eröffnet, die multimodales Verständnis, logisches Denken und Interaktion sowie kontinuierliche räumliche Entscheidungsfindung ermöglichen. Dennoch stehen aktuelle, auf MLLMs basierende verkörperte Systeme vor zwei kritischen Herausforderungen. Erstens, die Lücke in der geometrischen Anpassungsfähigkeit: Modelle, die ausschließlich mit 2D-Eingaben trainiert oder mit fest kodierter 3D-Geometrie versehen wurden, leiden entweder unter unzureichenden räumlichen Informationen oder eingeschränkter 2D-Generalisierung, was zu einer schlechten Anpassungsfähigkeit bei Aufgaben mit unterschiedlichen räumlichen Anforderungen führt. Zweitens, die Lücke in den verkörperten Einschränkungen: Frühere Arbeiten vernachlässigen oft die physischen Beschränkungen und Fähigkeiten realer Roboter, was zu Aufgabenplänen führt, die theoretisch gültig, aber praktisch undurchführbar sind. Um diese Lücken zu schließen, stellen wir OmniEVA vor – einen vielseitigen verkörperten Planer, der fortschrittliches verkörpertes Denken und Aufgabenplanung durch zwei zentrale Innovationen ermöglicht: (1) einen aufgabenadaptiven 3D-Verankerungsmechanismus, der einen gated Router einführt, um eine explizite selektive Regulierung der 3D-Fusion basierend auf kontextuellen Anforderungen durchzuführen, was eine kontextbewusste 3D-Verankerung für verschiedene verkörperte Aufgaben ermöglicht. (2) ein verkörperungsbewusstes Denkframework, das sowohl Aufgabenziele als auch verkörperte Einschränkungen gemeinsam in den Denkprozess einbezieht, was zu Planungsentscheidungen führt, die sowohl zielgerichtet als auch ausführbar sind. Umfangreiche experimentelle Ergebnisse zeigen, dass OmniEVA nicht nur eine state-of-the-art Leistung im allgemeinen verkörperten Denken erreicht, sondern auch eine starke Fähigkeit über eine breite Palette von nachgelagerten Szenarien aufweist. Bewertungen einer Reihe vorgeschlagener verkörperter Benchmarks, einschließlich sowohl primärer als auch zusammengesetzter Aufgaben, bestätigen seine robusten und vielseitigen Planungsfähigkeiten. Projektseite: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io