OmniEVA: Универсальный планировщик на основе адаптивного 3D-обоснования и учета физического воплощения для решения задач

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLM) открыли новые возможности для воплощённого интеллекта, обеспечивая мультимодальное понимание, рассуждение и взаимодействие, а также непрерывное пространственное принятие решений. Тем не менее, современные системы на основе MLLM сталкиваются с двумя критическими ограничениями. Во-первых, **Пробел в геометрической адаптивности**: модели, обученные исключительно на 2D-данных или с жёстко заданной инъекцией 3D-геометрии, страдают либо от недостатка пространственной информации, либо от ограниченной 2D-обобщаемости, что приводит к плохой адаптивности в задачах с различными пространственными требованиями. Во-вторых, **Пробел в ограничениях воплощения**: предыдущие работы часто игнорируют физические ограничения и возможности реальных роботов, что приводит к планам задач, которые теоретически корректны, но практически невыполнимы. Для устранения этих пробелов мы представляем **OmniEVA** — универсальный планировщик для воплощённого интеллекта, который обеспечивает продвинутое воплощённое рассуждение и планирование задач благодаря двум ключевым инновациям: (1) **Механизм адаптивного 3D-заземления задач**, который вводит управляемый маршрутизатор для явного выборочного регулирования 3D-слияния на основе контекстных требований, обеспечивая контекстно-зависимое 3D-заземление для различных воплощённых задач. (2) **Фреймворк рассуждений с учётом воплощения**, который совместно учитывает цели задач и ограничения воплощения в цикле рассуждений, что приводит к планированию решений, которые одновременно направлены на достижение цели и выполнимы. Результаты обширных экспериментов демонстрируют, что OmniEVA не только достигает передовых показателей в общем воплощённом рассуждении, но и проявляет высокую способность в широком спектре сценариев. Оценка набора предложенных тестов для воплощённого интеллекта, включая как простые, так и составные задачи, подтверждает её устойчивые и универсальные возможности планирования. Страница проекта: https://omnieva.github.io

English

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible.To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io

OmniEVA: Универсальный планировщик на основе адаптивного 3D-обоснования и учета физического воплощения для решения задач

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Аннотация

Support