ODYSSEY: Исследование и манипуляции четвероногими роботами в открытом мире для задач с длительным горизонтом планирования
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
August 11, 2025
Авторы: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI
Аннотация
Управляемая языком мобильная манипуляция на длительных горизонтах долгое время оставалась серьезной проблемой в области воплощенного семантического рассуждения, обобщаемой манипуляции и адаптивной локомоции. Три фундаментальных ограничения препятствуют прогрессу: Во-первых, хотя крупные языковые модели улучшили пространственное рассуждение и планирование задач благодаря семантическим априорным знаниям, существующие реализации остаются ограниченными сценариями на столе, не учитывая ограниченное восприятие и узкий диапазон действий мобильных платформ. Во-вторых, текущие стратегии манипуляции демонстрируют недостаточную обобщаемость при столкновении с разнообразными конфигурациями объектов, встречающимися в открытых средах. В-третьих, хотя это критически важно для практического применения, двойное требование поддержания высокой маневренности платформы наряду с точным управлением концевым эффектором в неструктурированных условиях остается недостаточно изученным.
В данной работе мы представляем ODYSSEY, унифицированную платформу для мобильной манипуляции, предназначенную для проворных четвероногих роботов, оснащенных манипуляторами, которая бесшовно интегрирует высокоуровневое планирование задач с низкоуровневым управлением всем телом. Для решения проблемы эгоцентрического восприятия в задачах, обусловленных языком, мы представляем иерархический планировщик, основанный на модели "визуальный язык", который позволяет декомпозировать инструкции на длительные горизонты и точно выполнять действия. На уровне управления наша новая политика управления всем телом обеспечивает надежную координацию на сложных рельефах. Мы также представляем первый бенчмарк для мобильной манипуляции на длительных горизонтах, оценивая разнообразные сценарии в помещении и на открытом воздухе. Благодаря успешному переносу из симуляции в реальность, мы демонстрируем обобщаемость и надежность системы в реальных условиях, подчеркивая практичность манипуляторов на ногах в неструктурированных средах. Наша работа повышает реализуемость обобщенных роботизированных помощников, способных выполнять сложные, динамические задачи. Наша страница проекта: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/