OmniManip : Vers une manipulation robotique générale via des primitives d'interaction centrées sur les objets en tant que contraintes spatiales
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
January 7, 2025
Auteurs: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI
Résumé
Le développement de systèmes robotiques généraux capables de manipuler dans des environnements non structurés est un défi significatif. Alors que les Modèles Vision-Language (VLM) excellent dans le raisonnement de bon sens de haut niveau, ils manquent de la compréhension spatiale 3D détaillée nécessaire pour des tâches de manipulation précises. Le réglage fin des VLM sur des ensembles de données robotiques pour créer des Modèles Vision-Language-Action (VLA) est une solution potentielle, mais elle est entravée par des coûts élevés de collecte de données et des problèmes de généralisation. Pour relever ces défis, nous proposons une représentation novatrice centrée sur les objets qui comble le fossé entre le raisonnement de haut niveau des VLM et la précision de bas niveau requise pour la manipulation. Notre idée clé est qu'un espace canonique d'objet, défini par ses affordances fonctionnelles, fournit un moyen structuré et sémantiquement significatif de décrire des primitives d'interaction, telles que des points et des directions. Ces primitives agissent comme un pont, traduisant le raisonnement de bon sens des VLM en contraintes spatiales 3D actionnables. Dans ce contexte, nous introduisons un système de manipulation robotique à double boucle fermée, à vocabulaire ouvert : une boucle pour la planification de haut niveau à travers le rééchantillonnage primitif, le rendu d'interaction et la vérification des VLM, et une autre pour l'exécution de bas niveau via le suivi de la pose 6D. Cette conception garantit un contrôle robuste et en temps réel sans nécessiter de réglage fin des VLM. Des expériences approfondies démontrent une forte généralisation sans apprentissage préalable sur une variété de tâches de manipulation robotique, mettant en évidence le potentiel de cette approche pour automatiser la génération de données de simulation à grande échelle.
English
The development of general robotic systems capable of manipulating in
unstructured environments is a significant challenge. While Vision-Language
Models(VLM) excel in high-level commonsense reasoning, they lack the
fine-grained 3D spatial understanding required for precise manipulation tasks.
Fine-tuning VLM on robotic datasets to create Vision-Language-Action
Models(VLA) is a potential solution, but it is hindered by high data collection
costs and generalization issues. To address these challenges, we propose a
novel object-centric representation that bridges the gap between VLM's
high-level reasoning and the low-level precision required for manipulation. Our
key insight is that an object's canonical space, defined by its functional
affordances, provides a structured and semantically meaningful way to describe
interaction primitives, such as points and directions. These primitives act as
a bridge, translating VLM's commonsense reasoning into actionable 3D spatial
constraints. In this context, we introduce a dual closed-loop, open-vocabulary
robotic manipulation system: one loop for high-level planning through primitive
resampling, interaction rendering and VLM checking, and another for low-level
execution via 6D pose tracking. This design ensures robust, real-time control
without requiring VLM fine-tuning. Extensive experiments demonstrate strong
zero-shot generalization across diverse robotic manipulation tasks,
highlighting the potential of this approach for automating large-scale
simulation data generation.