OmniManip: Hacia la Manipulación Robótica General a través de Primitivas de Interacción Centradas en Objetos como Restricciones Espaciales
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
January 7, 2025
Autores: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI
Resumen
El desarrollo de sistemas robóticos generales capaces de manipular en entornos no estructurados es un desafío significativo. Si bien los Modelos de Visión-Lenguaje (VLM) sobresalen en el razonamiento de sentido común de alto nivel, carecen del entendimiento espacial 3D detallado necesario para tareas de manipulación precisa. Ajustar finamente los VLM en conjuntos de datos robóticos para crear Modelos de Visión-Lenguaje-Acción (VLA) es una solución potencial, pero se ve obstaculizada por los altos costos de recopilación de datos y problemas de generalización. Para abordar estos desafíos, proponemos una representación novedosa centrada en objetos que reduce la brecha entre el razonamiento de alto nivel de los VLM y la precisión de bajo nivel requerida para la manipulación. Nuestra idea clave es que el espacio canónico de un objeto, definido por sus capacidades funcionales, proporciona una forma estructurada y semánticamente significativa de describir primitivas de interacción, como puntos y direcciones. Estas primitivas actúan como un puente, traduciendo el razonamiento de sentido común de los VLM en restricciones espaciales 3D ejecutables. En este contexto, presentamos un sistema de manipulación robótica de doble bucle cerrado y vocabulario abierto: un bucle para la planificación de alto nivel a través de re-muestreo de primitivas, renderizado de interacción y verificación de VLM, y otro para la ejecución de bajo nivel a través del seguimiento de la pose 6D. Este diseño garantiza un control robusto y en tiempo real sin necesidad de ajuste fino de los VLM. Experimentos extensos demuestran una fuerte generalización de cero disparos en diversas tareas de manipulación robótica, resaltando el potencial de este enfoque para automatizar la generación de datos de simulación a gran escala.
English
The development of general robotic systems capable of manipulating in
unstructured environments is a significant challenge. While Vision-Language
Models(VLM) excel in high-level commonsense reasoning, they lack the
fine-grained 3D spatial understanding required for precise manipulation tasks.
Fine-tuning VLM on robotic datasets to create Vision-Language-Action
Models(VLA) is a potential solution, but it is hindered by high data collection
costs and generalization issues. To address these challenges, we propose a
novel object-centric representation that bridges the gap between VLM's
high-level reasoning and the low-level precision required for manipulation. Our
key insight is that an object's canonical space, defined by its functional
affordances, provides a structured and semantically meaningful way to describe
interaction primitives, such as points and directions. These primitives act as
a bridge, translating VLM's commonsense reasoning into actionable 3D spatial
constraints. In this context, we introduce a dual closed-loop, open-vocabulary
robotic manipulation system: one loop for high-level planning through primitive
resampling, interaction rendering and VLM checking, and another for low-level
execution via 6D pose tracking. This design ensures robust, real-time control
without requiring VLM fine-tuning. Extensive experiments demonstrate strong
zero-shot generalization across diverse robotic manipulation tasks,
highlighting the potential of this approach for automating large-scale
simulation data generation.Summary
AI-Generated Summary