ODYSSEY : Exploration et Manipulation par Quadrupèdes en Monde Ouvert pour des Tâches à Long Horizon
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
August 11, 2025
papers.authors: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
La manipulation mobile guidée par le langage sur des horizons temporels longs constitue depuis longtemps un défi majeur dans le raisonnement sémantique incarné, la manipulation généralisable et la locomotion adaptative. Trois limitations fondamentales entravent les progrès dans ce domaine : Premièrement, bien que les grands modèles de langage aient amélioré le raisonnement spatial et la planification des tâches grâce à des connaissances sémantiques préalables, les implémentations existantes restent confinées à des scénarios de table, ne parvenant pas à répondre aux contraintes de perception et aux limites d'action des plateformes mobiles. Deuxièmement, les stratégies de manipulation actuelles montrent une généralisation insuffisante face aux configurations d'objets variées rencontrées dans des environnements ouverts. Troisièmement, bien que cruciale pour un déploiement pratique, la double exigence de maintenir une grande maniabilité de la plateforme tout en assurant un contrôle précis de l'effecteur terminal dans des environnements non structurés reste peu étudiée.
Dans ce travail, nous présentons ODYSSEY, un cadre unifié de manipulation mobile pour des robots quadrupèdes agiles équipés de manipulateurs, qui intègre de manière fluide la planification de tâches de haut niveau avec le contrôle global de bas niveau. Pour relever le défi de la perception égocentrique dans les tâches conditionnées par le langage, nous introduisons un planificateur hiérarchique alimenté par un modèle vision-langage, permettant la décomposition d'instructions sur des horizons longs et l'exécution précise des actions. Au niveau du contrôle, notre nouvelle politique de contrôle global permet une coordination robuste sur des terrains difficiles. Nous présentons également le premier benchmark pour la manipulation mobile sur des horizons longs, évaluant divers scénarios en intérieur et en extérieur. Grâce à un transfert réussi du simulateur au monde réel, nous démontrons la généralisation et la robustesse du système dans des déploiements réels, soulignant la praticité des manipulateurs à pattes dans des environnements non structurés. Notre travail fait progresser la faisabilité d'assistants robotiques généralisés capables d'effectuer des tâches complexes et dynamiques. Notre page de projet : https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/