Kinematify: Sintesi a Vocabolario Aperto di Oggetti Articolati ad Alto Grado di Libertà

Abstract

Una profonda comprensione delle strutture cinematiche e dei componenti mobili è essenziale per consentire ai robot di manipolare oggetti e modellare le proprie forme articolate. Tale comprensione è catturata attraverso oggetti articolati, fondamentali per compiti come la simulazione fisica, la pianificazione del movimento e l'apprendimento di politiche. Tuttavia, la creazione di questi modelli, specialmente per oggetti con un alto numero di gradi di libertà (DoF), rimane una sfida significativa. I metodi esistenti si basano tipicamente su sequenze di movimento o forti assunzioni tratte da dataset curati manualmente, il che ostacola la scalabilità. In questo articolo, introduciamo Kinematify, un framework automatizzato che sintetizza oggetti articolati direttamente da immagini RGB arbitrarie o descrizioni testuali. Il nostro metodo affronta due sfide fondamentali: (i) dedurre le topologie cinematiche per oggetti ad alto numero di DoF e (ii) stimare i parametri dei giunti a partire dalla geometria statica. Per raggiungere questo obiettivo, combiniamo una ricerca MCTS per l'inferenza strutturale con un'ottimizzazione guidata dalla geometria per il ragionamento sui giunti, producendo descrizioni fisicamente consistenti e funzionalmente valide. Valutiamo Kinematify su input diversificati provenienti da ambienti sia sintetici che del mondo reale, dimostrando miglioramenti nell'accuratezza della registrazione e della topologia cinematica rispetto ai lavori precedenti.

English

A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.

Kinematify: Sintesi a Vocabolario Aperto di Oggetti Articolati ad Alto Grado di Libertà

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Abstract

Support