ODYSSEY: Open-World Verkenning en Manipulatie door Viervoeters voor Langetermijntaken
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
August 11, 2025
Auteurs: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI
Samenvatting
Taalgestuurde mobiele manipulatie op lange termijn is al lang een grote uitdaging in belichaamd semantisch redeneren, generaliseerbare manipulatie en adaptieve voortbeweging. Drie fundamentele beperkingen belemmeren de vooruitgang: Ten eerste, hoewel grote taalmodellen ruimtelijk redeneren en taakplanning hebben verbeterd door middel van semantische voorkennis, blijven bestaande implementaties beperkt tot tafelscenario's, waardoor ze niet in staat zijn om de beperkte waarneming en beperkte actuatiebereiken van mobiele platforms aan te pakken. Ten tweede vertonen huidige manipulatietactieken onvoldoende generalisatie wanneer ze worden geconfronteerd met de diverse objectconfigaties die worden aangetroffen in open-wereldomgevingen. Ten derde, hoewel cruciaal voor praktische inzet, blijft de dubbele vereiste van het behouden van hoge platformmanoeuvreerbaarheid naast precieze eindeffectorcontrole in ongestructureerde omgevingen onderbelicht.
In dit werk presenteren we ODYSSEY, een geïntegreerd mobiel manipulatieframework voor wendbare viervoetige robots uitgerust met manipulatoren, dat hoogwaardige taakplanning naadloos integreert met laagwaardige volledige lichaamscontrole. Om de uitdaging van egocentrische waarneming in taalgeconditioneerde taken aan te pakken, introduceren we een hiërarchische planner aangedreven door een visie-taalmodel, waardoor langetermijninstructiedecompositie en precieze actie-uitvoering mogelijk worden. Op het controle-niveau bereikt ons nieuwe volledige lichaamsbeleid robuuste coördinatie over uitdagende terreinen. We presenteren verder de eerste benchmark voor langetermijn mobiele manipulatie, waarbij diverse binnen- en buitenscenario's worden geëvalueerd. Door succesvolle sim-naar-real overdracht demonstreren we de generalisatie en robuustheid van het systeem in real-world inzet, wat de praktische bruikbaarheid van lopende manipulatoren in ongestructureerde omgevingen onderstreept. Ons werk bevordert de haalbaarheid van gegeneraliseerde robotassistenten die in staat zijn tot complexe, dynamische taken. Onze projectpagina: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/