Kinematify : Synthèse à vocabulaire ouvert d'objets articulés à haut degré de liberté
Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
November 3, 2025
papers.authors: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu
cs.AI
papers.abstract
Une compréhension approfondie des structures cinématiques et des composants mobiles est essentielle pour permettre aux robots de manipuler des objets et de modéliser leurs propres formes articulées. Cette compréhension est formalisée par les objets articulés, qui sont indispensables pour des tâches telles que la simulation physique, la planification de mouvement et l'apprentissage de politiques. Cependant, la création de ces modèles, particulièrement pour les objets possédant un haut degré de liberté (DDL), reste un défi majeur. Les méthodes existantes reposent généralement sur des séquences de mouvement ou sur des hypothèses fortes issues de jeux de données annotés manuellement, ce qui limite leur extensibilité. Dans cet article, nous présentons Kinematify, un cadre automatisé qui synthétise des objets articulés directement à partir d'images RVB arbitraires ou de descriptions textuelles. Notre méthode aborde deux défis fondamentaux : (i) l'inférence des topologies cinématiques pour les objets à haut DDL et (ii) l'estimation des paramètres des articulations à partir de la géométrie statique. Pour y parvenir, nous combinons une recherche par MCTS pour l'inférence structurelle avec une optimisation guidée par la géométrie pour le raisonnement sur les articulations, produisant ainsi des descriptions physiquement cohérentes et fonctionnellement valides. Nous évaluons Kinematify sur des entrées variées provenant d'environnements synthétiques et réels, démontrant des améliorations en matière de précision de recalage et de topologie cinématique par rapport aux travaux antérieurs.
English
A deep understanding of kinematic structures and movable components is
essential for enabling robots to manipulate objects and model their own
articulated forms. Such understanding is captured through articulated objects,
which are essential for tasks such as physical simulation, motion planning, and
policy learning. However, creating these models, particularly for objects with
high degrees of freedom (DoF), remains a significant challenge. Existing
methods typically rely on motion sequences or strong assumptions from
hand-curated datasets, which hinders scalability. In this paper, we introduce
Kinematify, an automated framework that synthesizes articulated objects
directly from arbitrary RGB images or textual descriptions. Our method
addresses two core challenges: (i) inferring kinematic topologies for high-DoF
objects and (ii) estimating joint parameters from static geometry. To achieve
this, we combine MCTS search for structural inference with geometry-driven
optimization for joint reasoning, producing physically consistent and
functionally valid descriptions. We evaluate Kinematify on diverse inputs from
both synthetic and real-world environments, demonstrating improvements in
registration and kinematic topology accuracy over prior work.