OmniManip: Naar Algemene Robot Manipulatie via Object-Centrische Interactie Primitieven als Ruimtelijke Beperkingen

Samenvatting

De ontwikkeling van algemene robotica systemen die in staat zijn om te manipuleren in ongestructureerde omgevingen is een significante uitdaging. Terwijl Vision-Language Modellen (VLM) uitblinken in hoog-niveau gezond verstand redenering, missen ze het gedetailleerde 3D ruimtelijk begrip dat nodig is voor precieze manipulatietaken. Het fijnafstemmen van VLM op robotdatasets om Vision-Language-Action Modellen (VLA) te creëren is een potentieel oplossing, maar wordt belemmerd door hoge kosten voor gegevensverzameling en generalisatieproblemen. Om deze uitdagingen aan te pakken, stellen we een nieuw object-gecentreerde representatie voor die de kloof overbrugt tussen het hoog-niveau redeneren van VLM en de laag-niveau precisie die vereist is voor manipulatie. Ons belangrijk inzicht is dat de canonieke ruimte van een object, gedefinieerd door zijn functionele mogelijkheden, een gestructureerde en semantisch zinvolle manier biedt om interactieprimitieven, zoals punten en richtingen, te beschrijven. Deze primitieven fungeren als een brug, waarbij het gezond verstand redeneren van VLM wordt vertaald naar bruikbare 3D ruimtelijke beperkingen. In deze context introduceren we een dubbel gesloten-lus, open-vocabulaire robotische manipulatiesysteem: één lus voor hoog-niveau planning via primitieve hermonsterneming, interactie-rendering en VLM-controle, en een andere voor laag-niveau uitvoering via 6D pose tracking. Deze ontwerp zorgt voor robuuste, real-time controle zonder dat VLM fijnafstemming nodig is. Uitgebreide experimenten tonen sterke zero-shot generalisatie aan over diverse robotische manipulatietaken, waarbij het potentieel van deze benadering voor het automatiseren van grootschalige simulatiegegevensgeneratie wordt benadrukt.

English

The development of general robotic systems capable of manipulating in unstructured environments is a significant challenge. While Vision-Language Models(VLM) excel in high-level commonsense reasoning, they lack the fine-grained 3D spatial understanding required for precise manipulation tasks. Fine-tuning VLM on robotic datasets to create Vision-Language-Action Models(VLA) is a potential solution, but it is hindered by high data collection costs and generalization issues. To address these challenges, we propose a novel object-centric representation that bridges the gap between VLM's high-level reasoning and the low-level precision required for manipulation. Our key insight is that an object's canonical space, defined by its functional affordances, provides a structured and semantically meaningful way to describe interaction primitives, such as points and directions. These primitives act as a bridge, translating VLM's commonsense reasoning into actionable 3D spatial constraints. In this context, we introduce a dual closed-loop, open-vocabulary robotic manipulation system: one loop for high-level planning through primitive resampling, interaction rendering and VLM checking, and another for low-level execution via 6D pose tracking. This design ensures robust, real-time control without requiring VLM fine-tuning. Extensive experiments demonstrate strong zero-shot generalization across diverse robotic manipulation tasks, highlighting the potential of this approach for automating large-scale simulation data generation.

OmniManip: Naar Algemene Robot Manipulatie via Object-Centrische Interactie Primitieven als Ruimtelijke Beperkingen

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Samenvatting

Summary

Support

Support