Kinematify: Open-Vocabulary Synthese van Gearticuleerde Objecten met Veel Vrijheidsgraden

Samenvatting

Een diepgaand begrip van kinematische structuren en beweegbare componenten is essentieel om robots in staat te stellen objecten te manipuleren en hun eigen gearticuleerde vormen te modelleren. Dit inzicht wordt vastgelegd via gearticuleerde objectmodellen, die onmisbaar zijn voor taken zoals fysieke simulatie, bewegingsplanning en beleidsleren. Het creëren van dergelijke modellen, vooral voor objecten met een hoge mate van vrijheid (DoF), blijft echter een aanzienlijke uitdaging. Bestaande methodes zijn doorgaans afhankelijk van bewegingsreeksen of sterke aannames uit handmatig samengestelde datasets, wat de schaalbaarheid belemmert. In dit artikel introduceren we Kinematify, een geautomatiseerd raamwerk dat gearticuleerde objecten direct synthetiseert uit willekeurige RGB-beelden of tekstuele beschrijvingen. Onze methode adresseert twee kernuitdagingen: (i) het afleiden van kinematische topologieën voor hoog-DoF-objecten en (ii) het schatten van gewrichtsparameters vanuit statische geometrie. Om dit te bereiken, combineren we MCTS-zoekalgoritmen voor structurele inferentie met geometriegestuurde optimalisatie voor gewichtsredenering, wat fysisch consistente en functioneel valide beschrijvingen oplevert. We evalueren Kinematify op diverse invoer uit zowel synthetische als real-world omgevingen en tonen verbeteringen aan in registratienauwkeurigheid en kinematische topologie ten opzichte van eerder werk.

English

A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.

Kinematify: Open-Vocabulary Synthese van Gearticuleerde Objecten met Veel Vrijheidsgraden

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Samenvatting

Support