OmniEVA: Pianificatore Versatile Incorporato tramite Ragionamento Adattivo ai Compiti, Basato su 3D e Consapevole dell'Incorporazione
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
Autori: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno aperto nuove opportunità per l'intelligenza incarnata, consentendo una comprensione, un ragionamento e un'interazione multimodale, nonché un processo decisionale spaziale continuo. Tuttavia, gli attuali sistemi incarnati basati su MLLM affrontano due limitazioni critiche. In primo luogo, il Divario di Adattabilità Geometrica: i modelli addestrati esclusivamente su input 2D o con un'iniezione di geometria 3D predefinita soffrono di informazioni spaziali insufficienti o di una generalizzazione 2D limitata, portando a una scarsa adattabilità tra compiti con diverse esigenze spaziali. In secondo luogo, il Divario dei Vincoli di Incarnazione: i lavori precedenti spesso trascurano i vincoli fisici e le capacità dei robot reali, risultando in piani di compito teoricamente validi ma praticamente irrealizzabili. Per affrontare queste lacune, introduciamo OmniEVA -- un pianificatore versatile incarnato che abilita un ragionamento avanzato e una pianificazione dei compiti attraverso due innovazioni fondamentali: (1) un Meccanismo di Ancoraggio 3D Adattivo al Compito, che introduce un router controllato per eseguire una regolazione selettiva esplicita della fusione 3D basata sui requisiti contestuali, consentendo un ancoraggio 3D consapevole del contesto per vari compiti incarnati. (2) un Framework di Ragionamento Consapevole dell'Incarnazione che incorpora congiuntamente gli obiettivi del compito e i vincoli di incarnazione nel ciclo di ragionamento, risultando in decisioni di pianificazione sia orientate agli obiettivi che eseguibili. I risultati sperimentali estesi dimostrano che OmniEVA non solo raggiunge prestazioni all'avanguardia nel ragionamento incarnato generale, ma mostra anche una forte capacità in un'ampia gamma di scenari downstream. Le valutazioni di una serie di benchmark incarnati proposti, inclusi compiti sia primitivi che compositi, confermano le sue robuste e versatili capacità di pianificazione. Pagina del progetto: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io