OmniManip: К общему робототехническому манипулированию через объектно-центрические взаимодейственные примитивы в качестве пространственных ограничений
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
January 7, 2025
Авторы: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI
Аннотация
Разработка общих робототехнических систем способных манипулировать в неструктурированных средах представляет собой значительное испытание. Визио-языковые модели (VLM) блестяще справляются с рассуждениями на высоком уровне здравого смысла, но им не хватает детализированного пространственного понимания в 3D, необходимого для точных манипуляционных задач. Настройка VLM на робототехнических наборах данных для создания моделей визио-языкового-действия (VLA) является потенциальным решением, однако ее затрудняют высокие затраты на сбор данных и проблемы обобщения. Для решения этих проблем мы предлагаем новое объектно-центрическое представление, которое устраняет разрыв между высокоуровневым рассуждением VLM и низкоуровневой точностью, необходимой для манипуляций. Наш ключевой аспект заключается в том, что каноническое пространство объекта, определенное его функциональными возможностями, обеспечивает структурированный и семантически значимый способ описания примитивов взаимодействия, таких как точки и направления. Эти примитивы выступают в качестве моста, переводящего здравый смысл рассуждений VLM в действенные 3D пространственные ограничения. В этом контексте мы представляем двойную замкнутую систему робототехнической манипуляции с открытым словарем: один цикл для планирования на высоком уровне через повторное выборочное формирование примитивов, визуализацию взаимодействия и проверку VLM, и другой для выполнения на низком уровне через отслеживание позы 6D. Этот дизайн обеспечивает надежное, реальное управление без необходимости настройки VLM. Обширные эксперименты демонстрируют сильное обобщение без обучения на разнообразных задачах робототехнической манипуляции, подчеркивая потенциал данного подхода для автоматизации генерации данных симуляции большого масштаба.
English
The development of general robotic systems capable of manipulating in
unstructured environments is a significant challenge. While Vision-Language
Models(VLM) excel in high-level commonsense reasoning, they lack the
fine-grained 3D spatial understanding required for precise manipulation tasks.
Fine-tuning VLM on robotic datasets to create Vision-Language-Action
Models(VLA) is a potential solution, but it is hindered by high data collection
costs and generalization issues. To address these challenges, we propose a
novel object-centric representation that bridges the gap between VLM's
high-level reasoning and the low-level precision required for manipulation. Our
key insight is that an object's canonical space, defined by its functional
affordances, provides a structured and semantically meaningful way to describe
interaction primitives, such as points and directions. These primitives act as
a bridge, translating VLM's commonsense reasoning into actionable 3D spatial
constraints. In this context, we introduce a dual closed-loop, open-vocabulary
robotic manipulation system: one loop for high-level planning through primitive
resampling, interaction rendering and VLM checking, and another for low-level
execution via 6D pose tracking. This design ensures robust, real-time control
without requiring VLM fine-tuning. Extensive experiments demonstrate strong
zero-shot generalization across diverse robotic manipulation tasks,
highlighting the potential of this approach for automating large-scale
simulation data generation.Summary
AI-Generated Summary