Kinematify: 高自由度関節オブジェクトのオープン語彙合成
Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
November 3, 2025
著者: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu
cs.AI
要旨
ロボットが物体を操作し、自身の関節構造をモデル化するためには、運動学的構造と可動部品に対する深い理解が不可欠である。このような理解は、関節を持つ物体モデルを通じて捉えられ、物理シミュレーション、運動計画、方策学習などのタスクにおいて重要な役割を果たす。しかし特に高自由度(DoF)の物体に対するこれらのモデルの作成は、依然として大きな課題である。既存手法は通常、手作業で整備されたデータセットからの運動シーケンスや強い仮定に依存しており、スケーラビリティの妨げとなっている。本論文では、任意のRGB画像やテキスト記述から直接関節物体を合成する自動フレームワーク「Kinematify」を提案する。本手法は、(i)高自由度物体の運動学的トポロジーの推論、(ii)静的形状からの関節パラメータの推定という2つの核心的課題に取り組む。これを実現するため、構造推論のためのMCTS探索と、関節推論のための幾何学駆動最適化を組み合わせ、物理的に一貫し機能的有効性を持つ記述を生成する。Kinematifyを合成環境および実世界環境の多様な入力で評価し、従来手法を上回る位置合わせ精度と運動学的トポロジー精度の向上を実証する。
English
A deep understanding of kinematic structures and movable components is
essential for enabling robots to manipulate objects and model their own
articulated forms. Such understanding is captured through articulated objects,
which are essential for tasks such as physical simulation, motion planning, and
policy learning. However, creating these models, particularly for objects with
high degrees of freedom (DoF), remains a significant challenge. Existing
methods typically rely on motion sequences or strong assumptions from
hand-curated datasets, which hinders scalability. In this paper, we introduce
Kinematify, an automated framework that synthesizes articulated objects
directly from arbitrary RGB images or textual descriptions. Our method
addresses two core challenges: (i) inferring kinematic topologies for high-DoF
objects and (ii) estimating joint parameters from static geometry. To achieve
this, we combine MCTS search for structural inference with geometry-driven
optimization for joint reasoning, producing physically consistent and
functionally valid descriptions. We evaluate Kinematify on diverse inputs from
both synthetic and real-world environments, demonstrating improvements in
registration and kinematic topology accuracy over prior work.