ODYSSEY: Exploración y Manipulación de Cuadrúpedos en Mundos Abiertos para Tareas de Largo Horizonte
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
August 11, 2025
Autores: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI
Resumen
La manipulación móvil de largo horizonte guiada por lenguaje ha sido durante mucho tiempo un gran desafío en el razonamiento semántico encarnado, la manipulación generalizable y la locomoción adaptativa. Tres limitaciones fundamentales obstaculizan el progreso: En primer lugar, aunque los modelos de lenguaje grandes han mejorado el razonamiento espacial y la planificación de tareas a través de prioridades semánticas, las implementaciones existentes siguen confinadas a escenarios de mesa, sin abordar la percepción restringida y los rangos de actuación limitados de las plataformas móviles. En segundo lugar, las estrategias de manipulación actuales muestran una generalización insuficiente cuando se enfrentan a las diversas configuraciones de objetos encontradas en entornos de mundo abierto. En tercer lugar, aunque es crucial para el despliegue práctico, el requisito dual de mantener una alta maniobrabilidad de la plataforma junto con un control preciso del efector final en entornos no estructurados sigue siendo poco estudiado.
En este trabajo, presentamos ODYSSEY, un marco unificado de manipulación móvil para robots cuadrúpedos ágiles equipados con manipuladores, que integra de manera fluida la planificación de tareas de alto nivel con el control de cuerpo completo de bajo nivel. Para abordar el desafío de la percepción egocéntrica en tareas condicionadas por lenguaje, introducimos un planificador jerárquico impulsado por un modelo de visión-lenguaje, que permite la descomposición de instrucciones de largo horizonte y la ejecución precisa de acciones. A nivel de control, nuestra novedosa política de cuerpo completo logra una coordinación robusta en terrenos desafiantes. Además, presentamos el primer punto de referencia para la manipulación móvil de largo horizonte, evaluando diversos escenarios interiores y exteriores. A través de una transferencia exitosa de simulación a realidad, demostramos la generalización y robustez del sistema en despliegues del mundo real, destacando la practicidad de los manipuladores con patas en entornos no estructurados. Nuestro trabajo avanza la viabilidad de asistentes robóticos generalizados capaces de realizar tareas complejas y dinámicas. Nuestra página del proyecto: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/