ChatPaper.aiChatPaper

ODYSSEY: Open-World Verkenning en Manipulatie door Viervoeters voor Langetermijntaken

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

August 11, 2025
Auteurs: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI

Samenvatting

Taalgestuurde mobiele manipulatie op lange termijn is al lang een grote uitdaging in belichaamd semantisch redeneren, generaliseerbare manipulatie en adaptieve voortbeweging. Drie fundamentele beperkingen belemmeren de vooruitgang: Ten eerste, hoewel grote taalmodellen ruimtelijk redeneren en taakplanning hebben verbeterd door middel van semantische voorkennis, blijven bestaande implementaties beperkt tot tafelscenario's, waardoor ze niet in staat zijn om de beperkte waarneming en beperkte actuatiebereiken van mobiele platforms aan te pakken. Ten tweede vertonen huidige manipulatietactieken onvoldoende generalisatie wanneer ze worden geconfronteerd met de diverse objectconfigaties die worden aangetroffen in open-wereldomgevingen. Ten derde, hoewel cruciaal voor praktische inzet, blijft de dubbele vereiste van het behouden van hoge platformmanoeuvreerbaarheid naast precieze eindeffectorcontrole in ongestructureerde omgevingen onderbelicht. In dit werk presenteren we ODYSSEY, een geïntegreerd mobiel manipulatieframework voor wendbare viervoetige robots uitgerust met manipulatoren, dat hoogwaardige taakplanning naadloos integreert met laagwaardige volledige lichaamscontrole. Om de uitdaging van egocentrische waarneming in taalgeconditioneerde taken aan te pakken, introduceren we een hiërarchische planner aangedreven door een visie-taalmodel, waardoor langetermijninstructiedecompositie en precieze actie-uitvoering mogelijk worden. Op het controle-niveau bereikt ons nieuwe volledige lichaamsbeleid robuuste coördinatie over uitdagende terreinen. We presenteren verder de eerste benchmark voor langetermijn mobiele manipulatie, waarbij diverse binnen- en buitenscenario's worden geëvalueerd. Door succesvolle sim-naar-real overdracht demonstreren we de generalisatie en robuustheid van het systeem in real-world inzet, wat de praktische bruikbaarheid van lopende manipulatoren in ongestructureerde omgevingen onderstreept. Ons werk bevordert de haalbaarheid van gegeneraliseerde robotassistenten die in staat zijn tot complexe, dynamische taken. Onze projectpagina: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/
PDF453August 25, 2025