Kinematify: Síntese de Vocabulário Aberto de Objetos Articulados de Alto Grau de Liberdade

Resumo

Uma compreensão profunda das estruturas cinemáticas e componentes móveis é essencial para capacitar robôs a manipular objetos e modelar suas próprias formas articuladas. Tal compreensão é capturada por meio de objetos articulados, que são fundamentais para tarefas como simulação física, planejamento de movimento e aprendizado de políticas. No entanto, a criação desses modelos, particularmente para objetos com alto número de graus de liberdade (GdL), permanece um desafio significativo. Os métodos existentes geralmente dependem de sequências de movimento ou de pressupostos fortes provenientes de conjuntos de dados curados manualmente, o que dificulta a escalabilidade. Neste artigo, apresentamos o Kinematify, uma estrutura automatizada que sintetiza objetos articulados diretamente a partir de imagens RGB arbitrárias ou descrições textuais. Nosso método aborda dois desafios centrais: (i) inferir topologias cinemáticas para objetos de alto GdL e (ii) estimar parâmetros de junta a partir de geometria estática. Para isso, combinamos uma busca por MCTS para inferência estrutural com uma otimização orientada por geometria para raciocínio sobre juntas, produzindo descrições fisicamente consistentes e funcionalmente válidas. Avaliamos o Kinematify em diversas entradas de ambientes sintéticos e do mundo real, demonstrando melhorias na precisão de registro e topologia cinemática em relação a trabalhos anteriores.

English

A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.