ChatPaper.aiChatPaper

ODYSSEY: Exploração e Manipulação de Quadrúpedes em Mundo Aberto para Tarefas de Longo Horizonte

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

August 11, 2025
Autores: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
cs.AI

Resumo

A manipulação móvel de longo horizonte guiada por linguagem tem sido um grande desafio no raciocínio semântico incorporado, na manipulação generalizável e na locomoção adaptativa. Três limitações fundamentais dificultam o progresso: Primeiro, embora os grandes modelos de linguagem tenham aprimorado o raciocínio espacial e o planejamento de tarefas por meio de prioridades semânticas, as implementações existentes permanecem confinadas a cenários de mesa, falhando em abordar a percepção restrita e as faixas de atuação limitadas das plataformas móveis. Segundo, as estratégias atuais de manipulação exibem generalização insuficiente quando confrontadas com as diversas configurações de objetos encontradas em ambientes de mundo aberto. Terceiro, embora crucial para a implantação prática, a dupla exigência de manter alta manobrabilidade da plataforma juntamente com o controle preciso do efetuador final em ambientes não estruturados permanece pouco estudada. Neste trabalho, apresentamos ODYSSEY, um framework unificado de manipulação móvel para robôs quadrúpedes ágeis equipados com manipuladores, que integra de forma contínua o planejamento de tarefas de alto nível com o controle de corpo inteiro de baixo nível. Para enfrentar o desafio da percepção egocêntrica em tarefas condicionadas por linguagem, introduzimos um planejador hierárquico alimentado por um modelo de visão-linguagem, permitindo a decomposição de instruções de longo horizonte e a execução precisa de ações. No nível de controle, nossa nova política de corpo inteiro alcança coordenação robusta em terrenos desafiadores. Além disso, apresentamos o primeiro benchmark para manipulação móvel de longo horizonte, avaliando diversos cenários internos e externos. Através da transferência bem-sucedida de simulação para o mundo real, demonstramos a generalização e robustez do sistema em implantações reais, destacando a praticidade dos manipuladores com pernas em ambientes não estruturados. Nosso trabalho avança a viabilidade de assistentes robóticos generalizados capazes de realizar tarefas complexas e dinâmicas. Nossa página do projeto: https://kaijwang.github.io/odyssey.github.io/
English
Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/
PDF442August 25, 2025