OmniEVA: 작업 적응형 3D 기반 및 구현체 인식 추론을 통한 다목적 구현체 플래너
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
September 11, 2025
저자: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 다중 양식 이해, 추론 및 상호작용, 그리고 연속적인 공간 의사결정을 가능하게 함으로써 구현된 지능(embodied intelligence)에 새로운 기회를 열었습니다. 그러나 현재 MLLM 기반 구현 시스템은 두 가지 중요한 한계에 직면해 있습니다. 첫째, 기하학적 적응성 격차: 2D 입력만으로 훈련되거나 하드코딩된 3D 기하학 주입을 사용하는 모델은 공간 정보가 부족하거나 2D 일반화가 제한되어 다양한 공간 요구를 가진 작업 간 적응성이 떨어지는 문제가 있습니다. 둘째, 구현 제약 격차: 기존 연구는 실제 로봇의 물리적 제약과 능력을 종종 간과하여 이론적으로는 유효하지만 실제로 실행 불가능한 작업 계획을 생성하는 경우가 많습니다. 이러한 격차를 해결하기 위해 우리는 OmniEVA를 소개합니다. OmniEVA는 두 가지 핵심 혁신을 통해 고급 구현 추론 및 작업 계획을 가능하게 하는 다재다능한 구현 플래너입니다: (1) 작업 적응형 3D 그라운딩 메커니즘: 컨텍스트 요구 사항에 따라 3D 융합을 명시적으로 선택적으로 조절하는 게이트 라우터를 도입하여 다양한 구현 작업에 대한 컨텍스트 인식 3D 그라운딩을 가능하게 합니다. (2) 구현 인식 추론 프레임워크: 작업 목표와 구현 제약을 추론 루프에 함께 통합하여 목표 지향적이면서도 실행 가능한 계획 결정을 생성합니다. 광범위한 실험 결과는 OmniEVA가 최신의 일반 구현 추론 성능을 달성할 뿐만 아니라 다양한 다운스트림 시나리오에서 강력한 능력을 보여준다는 것을 입증합니다. 기본 및 복합 작업을 포함한 제안된 구현 벤치마크에 대한 평가는 OmniEVA의 견고하고 다재다능한 계획 능력을 확인시켜 줍니다. 프로젝트 페이지: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io