ChatPaper.aiChatPaper

ODYSSEY: Esplorazione e Manipolazione di Quadrupedi in Mondi Aperti per Compiti a Lungo Orizzonte

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

August 11, 2025
Autori: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI

Abstract

La manipolazione mobile guidata dal linguaggio su orizzonti temporali lunghi è da tempo una grande sfida nel ragionamento semantico incarnato, nella manipolazione generalizzabile e nella locomozione adattiva. Tre limitazioni fondamentali ostacolano il progresso: in primo luogo, sebbene i grandi modelli linguistici abbiano migliorato il ragionamento spaziale e la pianificazione dei compiti attraverso priorità semantiche, le implementazioni esistenti rimangono confinate a scenari da tavolo, non riuscendo a affrontare la percezione limitata e i range di azionamento ristretti delle piattaforme mobili. In secondo luogo, le attuali strategie di manipolazione mostrano una generalizzazione insufficiente quando si confrontano con le diverse configurazioni di oggetti incontrate negli ambienti del mondo reale. In terzo luogo, sebbene cruciale per il dispiegamento pratico, il duplice requisito di mantenere un'elevata manovrabilità della piattaforma insieme a un controllo preciso dell'end-effector in ambienti non strutturati rimane poco studiato. In questo lavoro, presentiamo ODYSSEY, un framework unificato per la manipolazione mobile di robot quadrupedi agili equipaggiati con manipolatori, che integra in modo fluido la pianificazione di compiti di alto livello con il controllo di basso livello dell'intero corpo. Per affrontare la sfida della percezione egocentrica nei compiti condizionati dal linguaggio, introduciamo un pianificatore gerarchico alimentato da un modello visione-linguaggio, che consente la scomposizione di istruzioni a lungo termine e l'esecuzione precisa delle azioni. A livello di controllo, la nostra innovativa politica di controllo dell'intero corpo raggiunge una coordinazione robusta su terreni impegnativi. Presentiamo inoltre il primo benchmark per la manipolazione mobile a lungo termine, valutando diversi scenari interni ed esterni. Attraverso un trasferimento riuscito da simulazione a realtà, dimostriamo la generalizzazione e la robustezza del sistema nei dispiegamenti nel mondo reale, sottolineando la praticità dei manipolatori su zampe in ambienti non strutturati. Il nostro lavoro avanza la fattibilità di assistenti robotici generalizzati capaci di compiti complessi e dinamici. La nostra pagina del progetto: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/
PDF453August 25, 2025