OmniEVA: Veelzijdige planner voor belichaamde systemen via taakadaptief 3D-gegrond en belichaamingsbewust redeneren
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
Auteurs: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben nieuwe mogelijkheden geopend voor belichaamde intelligentie, waardoor multimodale begrip, redenering en interactie, evenals continue ruimtelijke besluitvorming mogelijk worden gemaakt. Desalniettemin worden huidige op MLLM gebaseerde belichaamde systemen geconfronteerd met twee kritieke beperkingen. Ten eerste, de Geometrische Aanpassingskloof: modellen die uitsluitend zijn getraind op 2D-invoer of met hard-gecodeerde 3D-geometrie-injectie lijden onder onvoldoende ruimtelijke informatie of beperkte 2D-generalizatie, wat leidt tot slechte aanpassingsvermogen bij taken met uiteenlopende ruimtelijke eisen. Ten tweede, de Belichaamingsbeperkingskloof: eerder werk negeert vaak de fysieke beperkingen en capaciteiten van echte robots, wat resulteert in taakplannen die theoretisch geldig zijn maar praktisch onuitvoerbaar. Om deze kloof te overbruggen, introduceren we OmniEVA -- een veelzijdige belichaamde planner die geavanceerde belichaamde redenering en taakplanning mogelijk maakt door middel van twee cruciale innovaties: (1) een Taak-Adaptief 3D-Grondingsmechanisme, dat een gated router introduceert om expliciete selectieve regulatie van 3D-fusie uit te voeren op basis van contextuele vereisten, waardoor contextbewuste 3D-gronding voor diverse belichaamde taken mogelijk wordt. (2) een Belichaamingsbewust Redeneerkader dat zowel taakdoelen als belichaamingsbeperkingen gezamenlijk in de redeneerlus integreert, wat resulteert in planningsbeslissingen die zowel doelgericht als uitvoerbaar zijn. Uitgebreide experimentele resultaten tonen aan dat OmniEVA niet alleen state-of-the-art algemene belichaamde redeneerprestaties bereikt, maar ook een sterke vaardigheid vertoont over een breed scala aan downstreamscenario's. Evaluaties van een reeks voorgestelde belichaamde benchmarks, inclusief zowel primaire als samengestelde taken, bevestigen de robuuste en veelzijdige planningscapaciteiten ervan. Projectpagina: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io