ODYSSEY: Erkundung und Manipulation von Quadrupeden in offenen Welten für langfristige Aufgaben
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
August 11, 2025
papers.authors: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
Die sprachgesteuerte, langfristige mobile Manipulation stellt seit langem eine große Herausforderung in den Bereichen der verkörperten semantischen Argumentation, der generalisierbaren Manipulation und der adaptiven Fortbewegung dar. Drei grundlegende Einschränkungen behindern den Fortschritt: Erstens, obwohl große Sprachmodelle die räumliche Argumentation und Aufgabenplanung durch semantische Prioritäten verbessert haben, bleiben bestehende Implementierungen auf Tischszenarien beschränkt und berücksichtigen nicht die eingeschränkte Wahrnehmung und die begrenzten Aktionsbereiche mobiler Plattformen. Zweitens zeigen aktuelle Manipulationsstrategien eine unzureichende Generalisierung, wenn sie mit den vielfältigen Objektkonfigurationen in offenen Umgebungen konfrontiert werden. Drittens bleibt die duale Anforderung, hohe Plattformmanövrierfähigkeit bei gleichzeitiger präziser Steuerung des Endeffektors in unstrukturierten Umgebungen aufrechtzuerhalten, obwohl sie für den praktischen Einsatz entscheidend ist, weitgehend unerforscht.
In dieser Arbeit präsentieren wir ODYSSEY, ein einheitliches Framework für die mobile Manipulation mit agilen Quadruped-Robotern, die mit Manipulatoren ausgestattet sind. Dieses Framework integriert nahtlos die hochrangige Aufgabenplanung mit der niederrangigen Ganzkörpersteuerung. Um die Herausforderung der egozentrischen Wahrnehmung bei sprachgesteuerten Aufgaben zu bewältigen, führen wir einen hierarchischen Planer ein, der von einem Vision-Sprache-Modell angetrieben wird und die langfristige Instruktionszerlegung und präzise Aktionsausführung ermöglicht. Auf der Steuerungsebene erreicht unsere neuartige Ganzkörperpolitik eine robuste Koordination über anspruchsvolle Gelände hinweg. Darüber hinaus präsentieren wir den ersten Benchmark für langfristige mobile Manipulation, der verschiedene Innen- und Außenszenarien bewertet. Durch erfolgreichen Sim-to-Real-Transfer demonstrieren wir die Generalisierung und Robustheit des Systems in realen Einsätzen und unterstreichen die Praktikabilität von Beinmanipulatoren in unstrukturierten Umgebungen. Unsere Arbeit fördert die Machbarkeit von generalisierten Roboterassistenten, die komplexe, dynamische Aufgaben bewältigen können. Unsere Projektseite: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand
challenge in embodied semantic reasoning, generalizable manipulation, and
adaptive locomotion. Three fundamental limitations hinder progress: First,
although large language models have improved spatial reasoning and task
planning through semantic priors, existing implementations remain confined to
tabletop scenarios, failing to address the constrained perception and limited
actuation ranges of mobile platforms. Second, current manipulation strategies
exhibit insufficient generalization when confronted with the diverse object
configurations encountered in open-world environments. Third, while crucial for
practical deployment, the dual requirement of maintaining high platform
maneuverability alongside precise end-effector control in unstructured settings
remains understudied.
In this work, we present ODYSSEY, a unified mobile manipulation framework for
agile quadruped robots equipped with manipulators, which seamlessly integrates
high-level task planning with low-level whole-body control. To address the
challenge of egocentric perception in language-conditioned tasks, we introduce
a hierarchical planner powered by a vision-language model, enabling
long-horizon instruction decomposition and precise action execution. At the
control level, our novel whole-body policy achieves robust coordination across
challenging terrains. We further present the first benchmark for long-horizon
mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through
successful sim-to-real transfer, we demonstrate the system's generalization and
robustness in real-world deployments, underscoring the practicality of legged
manipulators in unstructured environments. Our work advances the feasibility of
generalized robotic assistants capable of complex, dynamic tasks. Our project
page: https://kaijwang.github.io/odyssey.github.io/