ChatPaper.aiChatPaper

Kinematify: Offenes Vokabular zur Synthese artikulierter Objekte mit hohem Freiheitsgrad

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

November 3, 2025
papers.authors: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu
cs.AI

papers.abstract

Ein tiefgreifendes Verständnis kinematischer Strukturen und beweglich gelagerter Komponenten ist entscheidend, damit Roboter Objekte manipulieren und ihre eigenen artikulierten Formen modellieren können. Ein solches Verständnis wird durch artikulierte Objekte erfasst, die für Aufgaben wie physikalische Simulation, Bewegungsplanung und Policy-Learning unerlässlich sind. Die Erstellung dieser Modelle, insbesondere für Objekte mit vielen Freiheitsgraden (Degrees of Freedom, DoF), bleibt jedoch eine große Herausforderung. Bestehende Methoden stützen sich typischerweise auf Bewegungssequenzen oder starke Annahmen aus handkuratierten Datensätzen, was die Skalierbarkeit behindert. In diesem Artikel stellen wir Kinematify vor, einen automatisierten Rahmen, der artikulierte Objekte direkt aus beliebigen RGB-Bildern oder Textbeschreibungen synthetisiert. Unser Ansatz adressiert zwei zentrale Herausforderungen: (i) das Ableiten kinematischer Topologien für Objekte mit hohen Freiheitsgraden und (ii) die Schätzung von Gelenkparametern aus statischer Geometrie. Um dies zu erreichen, kombinieren wir MCTS-Suche (Monte Carlo Tree Search) zur Strukturinferenz mit geometriegetriebener Optimierung für die Gelenkabschätzung und erzeugen so physikalisch konsistente und funktional valide Beschreibungen. Wir evaluieren Kinematify anhand verschiedener Eingaben aus synthetischen und realen Umgebungen und zeigen Verbesserungen bei der Registrierungsgenauigkeit und der Genauigkeit der kinematischen Topologie im Vergleich zu vorherigen Arbeiten.
English
A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.
PDF132December 1, 2025