ODYSSEY: Исследование и манипуляции четвероногими роботами в открытом мире для задач с длительным горизонтом планирования

Аннотация

Управляемая языком мобильная манипуляция на длительных горизонтах долгое время оставалась серьезной проблемой в области воплощенного семантического рассуждения, обобщаемой манипуляции и адаптивной локомоции. Три фундаментальных ограничения препятствуют прогрессу: Во-первых, хотя крупные языковые модели улучшили пространственное рассуждение и планирование задач благодаря семантическим априорным знаниям, существующие реализации остаются ограниченными сценариями на столе, не учитывая ограниченное восприятие и узкий диапазон действий мобильных платформ. Во-вторых, текущие стратегии манипуляции демонстрируют недостаточную обобщаемость при столкновении с разнообразными конфигурациями объектов, встречающимися в открытых средах. В-третьих, хотя это критически важно для практического применения, двойное требование поддержания высокой маневренности платформы наряду с точным управлением концевым эффектором в неструктурированных условиях остается недостаточно изученным. В данной работе мы представляем ODYSSEY, унифицированную платформу для мобильной манипуляции, предназначенную для проворных четвероногих роботов, оснащенных манипуляторами, которая бесшовно интегрирует высокоуровневое планирование задач с низкоуровневым управлением всем телом. Для решения проблемы эгоцентрического восприятия в задачах, обусловленных языком, мы представляем иерархический планировщик, основанный на модели "визуальный язык", который позволяет декомпозировать инструкции на длительные горизонты и точно выполнять действия. На уровне управления наша новая политика управления всем телом обеспечивает надежную координацию на сложных рельефах. Мы также представляем первый бенчмарк для мобильной манипуляции на длительных горизонтах, оценивая разнообразные сценарии в помещении и на открытом воздухе. Благодаря успешному переносу из симуляции в реальность, мы демонстрируем обобщаемость и надежность системы в реальных условиях, подчеркивая практичность манипуляторов на ногах в неструктурированных средах. Наша работа повышает реализуемость обобщенных роботизированных помощников, способных выполнять сложные, динамические задачи. Наша страница проекта: https://kaijwang.github.io/odyssey.github.io/

English

Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/

ODYSSEY: Исследование и манипуляции четвероногими роботами в открытом мире для задач с длительным горизонтом планирования

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Аннотация

Support