ODYSSEY: Exploración y Manipulación de Cuadrúpedos en Mundos Abiertos para Tareas de Largo Horizonte

Resumen

La manipulación móvil de largo horizonte guiada por lenguaje ha sido durante mucho tiempo un gran desafío en el razonamiento semántico encarnado, la manipulación generalizable y la locomoción adaptativa. Tres limitaciones fundamentales obstaculizan el progreso: En primer lugar, aunque los modelos de lenguaje grandes han mejorado el razonamiento espacial y la planificación de tareas a través de prioridades semánticas, las implementaciones existentes siguen confinadas a escenarios de mesa, sin abordar la percepción restringida y los rangos de actuación limitados de las plataformas móviles. En segundo lugar, las estrategias de manipulación actuales muestran una generalización insuficiente cuando se enfrentan a las diversas configuraciones de objetos encontradas en entornos de mundo abierto. En tercer lugar, aunque es crucial para el despliegue práctico, el requisito dual de mantener una alta maniobrabilidad de la plataforma junto con un control preciso del efector final en entornos no estructurados sigue siendo poco estudiado. En este trabajo, presentamos ODYSSEY, un marco unificado de manipulación móvil para robots cuadrúpedos ágiles equipados con manipuladores, que integra de manera fluida la planificación de tareas de alto nivel con el control de cuerpo completo de bajo nivel. Para abordar el desafío de la percepción egocéntrica en tareas condicionadas por lenguaje, introducimos un planificador jerárquico impulsado por un modelo de visión-lenguaje, que permite la descomposición de instrucciones de largo horizonte y la ejecución precisa de acciones. A nivel de control, nuestra novedosa política de cuerpo completo logra una coordinación robusta en terrenos desafiantes. Además, presentamos el primer punto de referencia para la manipulación móvil de largo horizonte, evaluando diversos escenarios interiores y exteriores. A través de una transferencia exitosa de simulación a realidad, demostramos la generalización y robustez del sistema en despliegues del mundo real, destacando la practicidad de los manipuladores con patas en entornos no estructurados. Nuestro trabajo avanza la viabilidad de asistentes robóticos generalizados capaces de realizar tareas complejas y dinámicas. Nuestra página del proyecto: https://kaijwang.github.io/odyssey.github.io/

English

Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/

ODYSSEY: Exploración y Manipulación de Cuadrúpedos en Mundos Abiertos para Tareas de Largo Horizonte

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Resumen

Support