ChatPaper.aiChatPaper

OmniEVA: Универсальный планировщик на основе адаптивного 3D-обоснования и учета физического воплощения для решения задач

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

September 11, 2025
Авторы: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
cs.AI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLM) открыли новые возможности для воплощённого интеллекта, обеспечивая мультимодальное понимание, рассуждение и взаимодействие, а также непрерывное пространственное принятие решений. Тем не менее, современные системы на основе MLLM сталкиваются с двумя критическими ограничениями. Во-первых, **Пробел в геометрической адаптивности**: модели, обученные исключительно на 2D-данных или с жёстко заданной инъекцией 3D-геометрии, страдают либо от недостатка пространственной информации, либо от ограниченной 2D-обобщаемости, что приводит к плохой адаптивности в задачах с различными пространственными требованиями. Во-вторых, **Пробел в ограничениях воплощения**: предыдущие работы часто игнорируют физические ограничения и возможности реальных роботов, что приводит к планам задач, которые теоретически корректны, но практически невыполнимы. Для устранения этих пробелов мы представляем **OmniEVA** — универсальный планировщик для воплощённого интеллекта, который обеспечивает продвинутое воплощённое рассуждение и планирование задач благодаря двум ключевым инновациям: (1) **Механизм адаптивного 3D-заземления задач**, который вводит управляемый маршрутизатор для явного выборочного регулирования 3D-слияния на основе контекстных требований, обеспечивая контекстно-зависимое 3D-заземление для различных воплощённых задач. (2) **Фреймворк рассуждений с учётом воплощения**, который совместно учитывает цели задач и ограничения воплощения в цикле рассуждений, что приводит к планированию решений, которые одновременно направлены на достижение цели и выполнимы. Результаты обширных экспериментов демонстрируют, что OmniEVA не только достигает передовых показателей в общем воплощённом рассуждении, но и проявляет высокую способность в широком спектре сценариев. Оценка набора предложенных тестов для воплощённого интеллекта, включая как простые, так и составные задачи, подтверждает её устойчивые и универсальные возможности планирования. Страница проекта: https://omnieva.github.io
English
Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible.To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io
PDF32September 12, 2025