Kinematify : Synthèse à vocabulaire ouvert d'objets articulés à haut degré de liberté

papers.abstract

Une compréhension approfondie des structures cinématiques et des composants mobiles est essentielle pour permettre aux robots de manipuler des objets et de modéliser leurs propres formes articulées. Cette compréhension est formalisée par les objets articulés, qui sont indispensables pour des tâches telles que la simulation physique, la planification de mouvement et l'apprentissage de politiques. Cependant, la création de ces modèles, particulièrement pour les objets possédant un haut degré de liberté (DDL), reste un défi majeur. Les méthodes existantes reposent généralement sur des séquences de mouvement ou sur des hypothèses fortes issues de jeux de données annotés manuellement, ce qui limite leur extensibilité. Dans cet article, nous présentons Kinematify, un cadre automatisé qui synthétise des objets articulés directement à partir d'images RVB arbitraires ou de descriptions textuelles. Notre méthode aborde deux défis fondamentaux : (i) l'inférence des topologies cinématiques pour les objets à haut DDL et (ii) l'estimation des paramètres des articulations à partir de la géométrie statique. Pour y parvenir, nous combinons une recherche par MCTS pour l'inférence structurelle avec une optimisation guidée par la géométrie pour le raisonnement sur les articulations, produisant ainsi des descriptions physiquement cohérentes et fonctionnellement valides. Nous évaluons Kinematify sur des entrées variées provenant d'environnements synthétiques et réels, démontrant des améliorations en matière de précision de recalage et de topologie cinématique par rapport aux travaux antérieurs.

English

A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.

Kinematify : Synthèse à vocabulaire ouvert d'objets articulés à haut degré de liberté

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

papers.abstract

Support